NeRF의 핵심 수식은 MLP가 아니다. MLP는 도구일 뿐이고, 실제 핵심은 물리 광학에서 직접 유도된 volume rendering integral이다. 이 적분이 어디서 왔는지 모르면, NeRF와 3D Gaussian Splatting이 왜 같은 형태의 alpha-compositing을 공유하는지 영원히 이해할 수 없다.
모든 것의 출발점: Rendering Equation
1986년 Kajiya는 광선이 표면에 도달했을 때 관찰되는 radiance를 단 하나의 방정식으로 표현했다.
왼쪽은 관찰자 방향으로 나가는 빛, 오른쪽은 표면이 스스로 내는 방사(Le)와 반구 전체 방향에서 들어온 빛이 BRDF fr을 통해 반사된 합이다. cosθi는 비스듬한 입사각에서 에너지가 넓은 면적으로 분산되는 foreshortening을 보정한다.
이 방정식이 재귀적이라는 점이 핵심이다. Li는 다른 표면의 Lo이고, 그 Lo는 또 다른 표면의 Li를 참조한다. 이 재귀 구조를 반복 전개하면 Neumann series가 된다.
정리 1
· Rendering Equation의 Neumann Series 전개
Reflection operator T(L)=∫frLicosθdω로 정의하면, rendering equation의 해는 다음과 같다.
Lo=∑k=0∞Tk(Le)=Le+T(Le)+T2(Le)+⋯
각 항은 k회 반사에 대응한다.
▷ 증명
에너지 보존 조건 ∫frcosθdω≤1이 성립하면 operator norm ∥T∥<1이다. 따라서 Neumann series ∑Tk가 수렴하고, 그 극한이 고정점 방정식 Lo=Le+T(Lo)의 유일한 해가 된다. □
∎
Path tracing은 이 무한 급수를 Monte Carlo로 근사하는 방법이다. k-bounce 경로를 확률적으로 샘플링해 각 항을 추정한다.
표면에서 볼륨으로: Radiative Transfer Equation
Rendering equation은 표면 위의 현상을 기술한다. 안개, 구름, 연기처럼 매질 내부에서 빛이 흡수·산란되는 경우는 Chandrasekhar(1960)의 radiative transfer equation(RTE)이 필요하다.
dsdL=−σtL+σs∫S2p(ω′,ω)L(s,ω′)dω′+σaLe
거리 ds를 이동할 때 빛은 세 가지 방식으로 변한다. extinction coefficient σt=σa+σs만큼 감쇠하고, 다른 방향에서 산란되어 들어오는 빛이 더해지고, 매질 자체의 emission이 더해진다. Phase function p(ω′,ω)는 산란 방향 분포를 결정한다.
✎ Optical Depth와 Transmittance
거리 a에서 b까지의 optical depth τ(a,b)=∫abσtds로 정의하면, 투과율(transmittance)은 Beer-Lambert law에 따라 T(a,b)=e−τ(a,b)다. 투과율은 구간을 쪼개도 곱셈으로 결합된다: T(a,c)=T(a,b)⋅T(b,c).
NeRF Integral의 유도
NeRF는 RTE에서 scattering을 제거하고 emission만 남긴 특수한 경우다. σs=0으로 놓으면 RTE는 1차 선형 ODE로 단순화된다.
dsdL=−σaL+σaLe
이 방정식의 해를 광선 r(t)=o+td를 따라 적분하면(Duhamel’s principle), 카메라가 보는 최종 색상이 나온다.
T(t)는 광선이 t까지 이동하면서 누적된 투과율로, 앞쪽 물체가 뒤쪽을 가리는 occlusion을 자연스럽게 표현한다. NeRF의 MLP가 출력하는 σ(x)(density)와 c(x,d)(radiance)는 정확히 이 피적분함수의 두 인자다.
수치 적분: Stratified Sampling
MLP 출력은 closed form 적분이 불가능하므로, NeRF는 구간 [tn,tf]를 N개 bin으로 균등 분할하고 각 bin에서 한 점씩 샘플링하는 stratified sampling을 사용한다.
C^=i=1∑NTi(1−e−σiδi)ci,Ti=j<i∏(1−αj)
여기서 δi는 bin 폭이고 αi=1−e−σiδi는 differential opacity다. σδ가 작을 때 αi≈σiδi가 되어 Riemann sum으로 환원되지만, exact form을 사용하면 σ 값이 클 때도 수치적으로 안정적이다.
Naive Monte Carlo는 O(1/N) 수렴이지만, density σ가 piecewise constant라는 가정 아래 stratified sampling은 O(1/N2) 수렴을 달성한다. NeRF의 coarse-fine 계층 구조는 coarse network의 weight distribution wi=Tiαi를 PDF로 사용해 fine network가 밀도 높은 영역에 더 많은 샘플을 집중시키는 importance sampling이다.
트레이드오프
✎ 가정과 한계
NeRF의 volume rendering은 scattering이 없는 emission-absorption만 가정한다. 실제 연기나 구름처럼 multi-scattering이 중요한 매질은 full RTE가 필요하다. 또한 σ의 단위가 역 길이(m⁻¹)이므로, 다른 scale의 장면에 적용할 때 scene scale에 대한 ambiguity가 발생한다. 3DGS는 연속 적분 대신 이산 Gaussian으로 대체해 실시간 렌더링을 달성하지만, 장면 표현의 연속성을 포기한다.
정리
Rendering equation(Kajiya 1986)은 표면 반사를 기술하며, Neumann series 전개가 path tracing의 수학적 근거다.
RTE(Chandrasekhar 1960)는 이를 volumetric media로 확장하고, scattering을 제거한 특수 경우가 NeRF의 volume rendering integral이다.
Beer-Lambert law T=e−τ는 RTE의 pure absorption 해이며, NeRF의 transmittance 항과 동일하다.
Stratified sampling의 discrete form C^=∑Ti(1−e−σiδi)ci는 NeRF부터 3DGS까지 모든 neural rendering의 공통 구조다.