Instruction에서 Reasoning까지 — LLM은 어떻게 생각을 배우는가
Instruction Tuning의 zero-shot 일반화 원리부터 Chain-of-Thought의 창발, Self-Consistency의 경로 앙상블, 그리고 'Emergent Abilities'가 측정 방법의 산물일 수 있다는 반론까지 추적한다.
- 01 Pretrained LM은 어떻게 '언어를 이해'하게 되었나
- 02 BERT는 어떻게 언어를 '이해'하는가
- 03 GPT에서 LLaMA까지: Decoder-Only LLM의 설계 철학
- 04 T5는 왜 모든 NLP task를 text-to-text로 통일했는가
- 05 사전학습 모델을 어떻게 내 task에 맞게 바꾸는가
- 06 In-Context Learning은 어떻게 작동하는가
- 07 Instruction에서 Reasoning까지 — LLM은 어떻게 생각을 배우는가
GPT-3는 데모(demo) 몇 개를 보여주면 새 태스크를 수행했다. 그런데 데모 없이 “이걸 해줘”라고 말해도 되지 않을까? 그 질문에서 Instruction Tuning이 시작됐고, 이후 Chain-of-Thought, Self-Consistency, Tree of Thoughts가 차례로 등장하면서 “LLM이 정말 추론을 하는가”라는 논쟁이 불붙었다. 이 챕터들을 관통하는 하나의 질문이 있다 — 모델은 언제 생각하는가, 아니면 생각하는 척하는가?
Instruction이라는 언어
FLAN(Wei 2022)의 핵심 관찰은 단순하다. 태스크를 자연어 instruction으로 표현하고, 60개 이상의 다양한 태스크에 걸쳐 그 instruction들로 fine-tuning하면 — 학습에 없던 새 태스크도 instruction만으로 수행할 수 있게 된다. 이를 zero-shot generalization이라 부른다.
이 학습 목표는 다음과 같이 쓸 수 있다.
는 태스크 의 번째 instruction template이다. 같은 태스크를 10가지 다른 표현으로 학습하면 그만큼 paraphrase 변동성에 강해진다. 직관적으로 이는 암묵적 앙상블 효과다 — 모델이 여러 관점에서 동시에 같은 태스크를 학습한다.
Instruction template의 다양성은 robustness를 높이지만, template이 서로 의미적으로 달라지면 오히려 모델을 혼란시킨다. FLAN이 수작업으로 template을 검증한 이유다. Super-NaturalInstructions(Wang 2022)는 declarative schema로 이 검증을 자동화했지만, 완전한 semantic correctness 보증은 여전히 어렵다.
중요한 경험적 결과가 있다. held-in 태스크 수가 10 → 60으로 증가할 때 held-out zero-shot 정확도는 약 으로 증가한다 — 지수적이 아니라 log-sublinear다. 태스크 다양성에는 수익 체감이 있다.
Chain-of-Thought — 단계를 쓰면 답이 달라진다
Instruction Tuning이 “무엇을 할지”를 가르쳤다면, Chain-of-Thought(Wei 2022)는 “어떻게 생각할지”를 묻는다. 데모에 중간 추론 단계()를 포함하면, 모델이 테스트 시에도 단계를 생성하는 경향을 보이고 — 최종 답의 정확도가 크게 오른다.
GSM8K(수학 문제)에서 PaLM 540B의 경우 17% → 57%로 뛰었다. Kojima 2022의 zero-shot CoT는 더 극적이다. 데모 없이 “Let’s think step by step” 한 줄만 붙여도 유사한 효과가 나타난다.
그런데 두 가지 관찰이 이 현상을 복잡하게 만든다.
첫째, CoT는 약 62B 파라미터 미만 모델에서는 효과가 없거나 오히려 악화된다. 작은 모델에게 중간 단계 생성은 최종 답 생성 확률을 희석시키는 noise로 작동한다.
둘째, 의도적으로 잘못된 reasoning step을 제공해도 모델은 그것을 신뢰하는 경향이 있다. 이는 모델이 step의 논리적 정확성을 검증하지 않고, format을 따를 뿐이라는 신호다.
Self-Consistency와 ToT — 경로를 여러 개 만들면
단일 CoT 경로는 fragile하다. Self-Consistency(Wang 2023)의 아이디어는 단순하다. 같은 질문에 대해 temperature sampling으로 개의 reasoning path를 생성하고, 최빈 답을 선택한다.
단일 경로 error rate가 이면, majority vote error는 증가에 따라 지수적으로 감소한다. 실험적으로 샘플에서 GSM8K 정확도가 추가로 약 15-20% 오른다. 단, marginal return은 이 커질수록 빠르게 감소한다.
Tree of Thoughts(Yao 2023)는 이 암묵적 탐색을 명시적 tree search로 구조화한다.
ToT = Thought Generator (LLM) + Value Function (LLM or PRM) + Search Algorithm (BFS/DFS)
병목은 Value Function이다. LLM이 state quality를 직접 평가하면 약 62% 정확도지만, step-level로 학습된 Process Reward Model(Lightman 2023)을 쓰면 약 85%까지 오른다. Value Function 정확도가 tree search 전체 효율의 상한을 결정한다.
Emergent Abilities — 진짜인가, 측정의 산물인가
여기서 이 챕터들의 가장 날카로운 논쟁이 등장한다. Wei 2022는 BIG-Bench의 여러 태스크에서 모델 규모에 따라 능력이 “갑자기” 나타난다고 주장했다. 30B에서 0%, 60B에서 5%, 137B에서 45%처럼.
Schaeffer 2023의 반론은 수학적으로 명확하다.
토큰 레벨 cross-entropy loss가 smooth하게 감소해도, sequence-level exact-match accuracy는 phase transition처럼 보일 수 있다.
토큰 오류율을 , 시퀀스 길이를 이라 하면, 시퀀스 정확도는
, 이면 — 토큰 99% 정확이어도 시퀀스는 37%다. 가 smooth하게 감소할 때, 시퀀스 정확도는 특정 구간에서 급격히 오르는 것처럼 보인다. Phase transition이 아니라 비선형 합성의 결과다.
즉, 같은 모델의 같은 능력이 어떤 metric으로 재느냐에 따라 “창발”처럼 보이기도, smooth curve처럼 보이기도 한다. BIG-Bench Hard(Suzgun 2023)는 이 문제를 정면으로 다뤄 “emergent”로 분류된 태스크 중 약 48%는 metric artifact, 35%만이 토큰 레벨에서도 sharp한 진짜 창발로 분류했다.
정리
- Instruction Tuning은 자연어 instruction을 통해 unseen 태스크로의 zero-shot 일반화를 가능케 한다. 핵심은 template 다양성과 태스크 coverage의 균형이다.
- Chain-of-Thought는 중간 추론 단계를 명시하면 정확도가 오른다는 관찰이지만, 이것이 진짜 추론인지 pattern matching인지는 아직 열린 질문이다.
- Self-Consistency와 Tree of Thoughts는 “한 번의 생성”이 아니라 “여러 경로의 합의”로 신뢰도를 높이는 접근이다.
- “Emergent Abilities”는 실재할 수 있지만, exact-match 같은 binary metric이 smooth한 능력 향상을 phase transition처럼 보이게 만드는 artifact를 주의해야 한다.
이 챕터들이 공유하는 철학은 하나다 — 모델이 무엇을 알고 있는지는, 어떻게 묻느냐에 달려 있다.