Masked Image Modeling은 무엇을 학습하는가
BEiT의 discrete token부터 MAE의 75% masking, SimMIM의 단순화, MaskFeat·MVP의 target 추상도까지 — MIM 계열의 설계 결정이 공유하는 하나의 원칙을 추적한다.
- 01 ViT는 왜 이미지를 patch로 쪼개는가
- 02 ViT의 데이터 허기는 어떻게 채워지는가
- 03 Self-Supervised Learning의 세 가지 얼굴
- 04 DINO는 왜 레이블 없이도 객체를 '본다'
- 05 Masked Image Modeling은 무엇을 학습하는가
- 06 Vision-Language Model은 어떻게 이미지를 '이해'하는가
- 07 Vision Transformer는 어떻게 픽셀을 넘어섰나
BERT가 NLP에 가져온 변화는 단순했다 — 입력의 일부를 지우고 맞추게 하라. Vision에 이를 적용하려는 시도가 BEiT, MAE, SimMIM, MaskFeat로 이어지면서 네 개의 논문은 겉으로는 서로 다른 설계를 취한다. 그런데 이 차이들을 관통하는 질문은 하나다. “무엇을 복원하게 할 것인가?” — 그리고 이 선택이 어떤 representation을 만드는가?
왜 이미지는 pixel을 그냥 mask할 수 없는가
BERT MLM의 핵심은 discrete prediction이다. 단어는 자연스럽게 유한한 vocabulary를 가지므로 cross-entropy loss가 정의된다. 픽셀은 연속값이다. [MASK] 토큰을 놓고 “원래 intensity를 맞혀라”고 요구하면 regression loss가 되고, 이웃 픽셀과의 spatial correlation 때문에 trivially 쉬운 문제가 된다.
BEiT(Bao et al. 2022)의 해결책은 DALL-E의 dVAE tokenizer를 빌리는 것이었다. 이미지를 8192개 codebook 중 가장 가까운 entry index로 양자화한다.
이제 224×224 이미지는 28×28 = 784개의 정수 token sequence가 된다. vocabulary 크기 8192에 대한 cross-entropy를 정의할 수 있다. BERT의 40% masking(BERT 15%보다 큰 이유는 이웃 패치 상관이 높아서 15%는 너무 쉬운 문제가 되기 때문이다)으로 masked position의 token을 예측하게 한다.
dVAE tokenization은 정보 손실을 수반한다. 정보이론적으로 bits/token이며, 이 ceiling 아래로는 어떤 pretrain도 넘어설 수 없다. tokenizer quality가 downstream performance의 상한을 결정한다.
MAE: discrete를 버리고 75%를 mask하다
He et al.(2022)의 MAE는 tokenizer를 완전히 제거하고 pixel 공간으로 돌아간다. 대신 두 가지 급진적인 선택을 한다.
첫째, 75% masking. 텍스트의 15%와 비교하면 5배다. 이것이 가능한 이유는 자연이미지의 극도의 spatial redundancy 때문이다. 인접 패치 상관계수 이고, frequency domain에서 low-frequency가 dominant하므로(compressive sensing의 sparsity 조건), 25%의 visible patch만으로도 나머지를 복원하기에 충분한 정보가 있다.
둘째, asymmetric encoder–decoder. 핵심은 encoder가 visible 25%만 처리한다는 것이다.
75% masking + visible-only encoder를 사용할 때, self-attention의 FLOPs는 symmetric 대비 약 4× 감소한다.
Self-attention의 복잡도는 sequence length의 제곱에 비례한다. Symmetric 처리 시 , visible 25%만 처리 시 . 이론적 비율은 16×이나, layer normalization과 MLP의 선형 항을 포함하면 실측 speedup은 약 로 수렴한다(He et al. 2022).
Loss는 masked region에 대한 per-patch normalized MSE다.
per-patch normalization은 분산이 큰 패치가 loss를 독점하지 않도록 균형을 맞춘다.
MAE의 주목할 만한 결과는 linear probe << fine-tuning 패턴이다(79.0% vs 83.6%, ViT-L). contrastive SSL(DINO, SimCLR)은 linear probe ≈ fine-tuning인 것과 정반대다. MAE는 low-level detail(edge, texture)을 풍부하게 보존하므로, linear head 하나로는 이를 semantic으로 변환하지 못한다. fine-tuning 시 깊은 layer들이 그 변환을 수행하면서 큰 향상이 나타난다.
SimMIM: 단순함은 충분한가
Xie et al.(2022)의 SimMIM은 MAE의 asymmetric 구조를 버리고 “모든 패치를 encoder에 통과시키고 single linear decoder로 복원하라”는 극단적 단순화를 택한다. masking ratio는 50-60%로 낮춘다.
이 낮은 masking ratio는 필연적이다. encoder가 masked token embedding도 함께 처리하므로, attention을 통해 visible 패치가 masked position에 attend할 수 있다 — 즉 정보 누수가 발생한다. 75%를 mask하면 encoder 자체가 masked region을 “보는” 경로가 생겨 prediction이 trivially 쉬워지므로, challenge level을 유지하려면 masking ratio를 낮춰야 한다.
대신 decoder가 shallow하므로 전체 학습 시간은 MAE 대비 약 1.5×로 완화된다.
SimMIM은 구현 단순성과 소형 모델 성능에서 경쟁력이 있다. ViT-B에서는 MAE(83.6%)와 거의 동등(~83.8%)하다. 그러나 ViT-L 이상에서는 MAE의 asymmetric 구조와 8-layer decoder의 표현력이 우위를 가져간다. small model: SimMIM 충분, large model: MAE 권장.
MaskFeat와 MVP: target의 추상도를 높이다
BEiT → MAE → SimMIM의 논쟁이 “어떻게 mask할 것인가”에 집중했다면, MaskFeat(Wei et al. 2022)와 MVP는 질문 자체를 바꾼다 — “무엇을 복원하게 할 것인가”.
MaskFeat는 pixel 대신 HOG(Histogram of Oriented Gradients)를 target으로 삼는다. HOG는 gradient 기반이므로 global brightness shift에 불변이고(), 정규화된 histogram이므로 contrast 변화에 robust하다. pixel target보다 구조적 정보(edge, orientation)에 focus하면서 semantic task에 더 가깝다.
MVP는 한 단계 더 올라가 frozen CLIP ViT의 patch feature를 target으로 쓴다. 예측해야 할 것이 pixel intensity가 아니라 semantic embedding이므로, 학습된 encoder는 자연스럽게 high-level semantic에 align된다.
target 추상도와 성능의 관계는 다음으로 요약된다.
CLIP target은 semantic task에서 ceiling이 높지만, CLIP 자체가 잘 못하는 task(fine-grained texture, 저수준 dense prediction)에서는 MVP도 제한된다. pixel target(MAE)은 ceiling이 낮은 대신 task 의존도가 없다.
하나의 원칙으로 읽기
네 방법의 설계 차이는 결국 같은 축 위에 있다.
| 방법 | Target | Masking | 특기 |
|---|---|---|---|
| BEiT | discrete token (8192) | 40% | tokenizer ceiling 존재 |
| MAE | pixel (normalized) | 75% | fine-tuning > linear probe |
| SimMIM | pixel | 50-60% | 단순, small model |
| MaskFeat | HOG (mid-level) | 50-75% | robust, balanced |
| MVP | CLIP feature (high-level) | 50-75% | semantic ceiling |
“복원 target의 추상도”가 representation의 성격을 결정한다. low-level target(pixel)은 detail을 보존하고 fine-tuning에서 빛난다. high-level target(CLIP)은 semantic에 align되어 linear probe에서 빛난다. 이 스펙트럼 위에서 task에 맞는 target을 고르는 것 — 혹은 여러 target을 동시에 쓰는 것 — 이 MIM 설계의 핵심 자유도다.
정리
- discrete token(BEiT)은 BERT MLM을 vision에 이식하는 가장 직접적 방법이지만, tokenizer quality라는 ceiling을 도입한다.
- MAE는 pixel target + 75% masking + asymmetric 구조로 계산 효율과 fine-tuning 성능을 동시에 달성했다.
- SimMIM은 단순화가 small/medium 모델에서 충분함을 보였고, large 모델에서는 asymmetric 구조의 가치가 드러난다.
- target을 HOG(MaskFeat)나 CLIP feature(MVP)로 높이면 semantic alignment가 올라가지만 target encoder 품질에 ceiling이 생긴다.
다음 글에서는 CLIP 자체 — 이미지와 텍스트를 동시에 학습하는 contrastive multimodal pretraining의 내부 동작을 추적한다.