인과 추론의 네 가지 무기 — RCT부터 Doubly Robust까지
Potential outcomes의 fundamental problem부터 DiD·RDD의 자연 실험, IPW의 분산 위험, 그리고 DR의 이중 보험까지 — causal ML의 식별 전략을 하나의 흐름으로 추적한다.
- 01 ML 시스템은 왜 모델 그 이상인가
- 02 Feature Store는 왜 단순 캐시가 아닌가
- 03 데이터 품질은 왜 단일 숫자로 측정할 수 없는가
- 04 분포 비교 메트릭은 무엇을 측정하는가
- 05 Ground Truth 없이도 모델을 믿을 수 있는가
- 06 A/B 테스트의 통계적 엄밀성은 어디서 오는가
- 07 인과 추론의 네 가지 무기 — RCT부터 Doubly Robust까지
ML 모델이 학습하는 것은 상관관계다. 그런데 정책 결정, A/B 실험 설계, 의료 개입 평가는 모두 인과관계를 요구한다. 단순 차이 통계가 “왜 틀렸는가”를 이해하려면 어디서 시작해야 하는가?
관찰의 근본 문제
Rubin의 potential outcomes framework는 불편한 진실에서 출발한다. Unit 에 대해 두 잠재 결과 과 이 동시에 존재하지만, 우리는 그 중 하나만 관찰한다. 개인 수준의 인과 효과 는 원리적으로 직접 측정할 수 없다.
평균(ATE)은 가능하다. Random assignment가 을 보장하면,
이 등식이 성립한다. 관찰된 집단 평균의 차이가 곧 인과 효과다. 이것이 RCT가 “황금 표준”인 이유다.
단, 이 논리는 SUTVA라는 두 가지 가정을 전제한다. ① 한 unit의 결과가 다른 unit의 처리에 영향받지 않아야 하고(no interference), ② 처리가 일관된 의미를 가져야 한다(no hidden variant). 소셜 네트워크처럼 spillover가 흔한 도메인에서는 이 가정이 조용히 깨진다.
개인 수준 효과 는 관찰 불가능하다. 대신 조건부 평균 , 즉 CATE는 ML 모델(causal forest, X-learner)로 추정할 수 있다. Segment별 효과가 ATE보다 정보량이 크다.
RCT가 불가능할 때 — DiD와 RDD
윤리적 제약, 비용, 이미 일어난 사건 — RCT가 불가능한 상황은 실제로 더 많다. 이때 두 가지 표준 도구가 “우연한 실험적 조건”을 활용한다.
**DiD(Difference-in-Differences)**는 처리 전후 × 처리/통제 집단의 4-cell 비교다.
통제 집단의 시간 추세를 빼서 처리 효과만 남긴다. 핵심 가정은 parallel trends — 처리가 없었다면 두 집단의 추세가 평행했을 것이라는 counterfactual 가정이다. 검증은 불완전하다. pre-trend가 평행해도 post에서 깨질 수 있다.
**RDD(Regression Discontinuity Design)**는 행정적 cutoff를 활용한다. 시험 점수, 나이, GPA처럼 임계값 기준으로 처리 여부가 결정될 때, cutoff 근방의 units은 “사실상 무작위 배정”된 것과 같다. Sharp RDD의 LATE 추정은
bandwidth 선택이 bias-variance tradeoff를 결정한다. 작은 는 분산을 키우고, 큰 는 편향을 키운다.
RDD에서 학생이 점수를 임계값 직전에 의도적으로 몰아넣으면 local randomization 가정이 깨진다. McCrary(2008) density test로 running variable의 cutoff 연속성을 반드시 확인해야 한다.
관찰 데이터의 confounding 문제
대부분의 데이터는 관찰 데이터다. Confounding이 있으면 naive 차이는 ATE가 아니다.
Pearl의 backdoor criterion은 어떤 공변량 집합 가 ATE 식별에 충분한지 알려준다. 가 모든 backdoor path를 차단하고 의 descendant를 포함하지 않으면, 조건부 평균의 주변화로 ATE를 계산할 수 있다.
실무에서는 Rosenbaum-Rubin(1983)의 propensity score 가 차원 축소의 핵심 도구다.
. 즉 가 100차원이어도 1차원 propensity score로 conditioning하는 것이 전체로 conditioning하는 것과 동등하다.
IPW(Inverse Probability Weighting)는 이 score를 역수 가중치로 쓴다.
이면 unbiased지만, 또는 인 구간에서 가중치가 폭증해 분산이 발산한다. Trimming이나 stabilized IPW가 표준 처방이다.
Doubly Robust — 두 모델의 이중 보험
IPW는 가, outcome regression은 이 정확해야 한다. 두 추정 모두 오차를 동반한다. **AIPW(Augmented IPW)**는 이 취약점을 한 번에 해결한다.
또는 — 둘 중 하나만 true에 수렴해도 .
두 경우를 나눠 확인한다.
Case A (): 잔차 가 noise 로 수렴. Ignorability 하에서 이므로 IPW 보정항이 사라지고, .
Case B (): IPW 항이 unbiased하게 을 추정하고, outcome 항의 편향을 정확히 cancel한다. 결국 .
두 모델이 모두 정확하면 추가 보너스가 있다. DR은 semiparametric efficiency bound를 달성한다 — 가능한 추정량 중 asymptotic 분산이 최소다.
트레이드오프와 실무 가이드
| 방법 | 필요 조건 | 위험 |
|---|---|---|
| Outcome regression | 정확 | misspecification |
| IPW | 정확 | extreme weights |
| AIPW/DR | 둘 중 하나면 OK | 둘 다 틀리면 깨짐 |
| DML (cross-fit DR) | ML nuisance 가능 | sample size 필요 |
ML 기반 nuisance 추정에서는 cross-fitting(Chernozhukov 2018)이 필수다. 같은 데이터로 을 학습하고 ATE를 추정하면 overfit이 bias로 누적된다. K-fold split으로 fold 간 독립성을 확보하면 -asymptotic normality를 보장할 수 있다.
현재 DoWhy와 EconML의 LinearDML, CausalForestDML은 cross-fitted DR의 wrapper다. “ignorability 가정이 검증 불가능하다”는 사실은 변하지 않는다. 대신 Rosenbaum bounds나 E-value로 “missed confounder가 얼마나 커야 결론이 뒤집히는가”를 측정하는 sensitivity analysis가 표준 부록이 됐다.
정리
- RCT의 unbiasedness는 에서 온다. SUTVA가 깨지면 ATE 추정 자체가 흔들린다.
- DiD는 parallel trends, RDD는 continuity — 두 quasi-experiment는 서로 다른 가정 위에 서 있고, 가정의 진단 방법(pre-trend test, McCrary test)도 함께 써야 한다.
- IPW의 extreme weight 문제와 outcome regression의 misspecification 위험은 DR로 동시에 완화된다. 단, “두 모델 모두 완전히 틀릴” 가능성은 여전히 사용자 책임이다.
- ML로 nuisance를 추정할 때는 cross-fitting을 빠뜨리지 마라.
인과 추론은 “어떤 모델을 쓰는가”보다 “어떤 가정 위에 서 있는가”의 문제다.