RNN은 왜 sequence를 기억하는가
N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.
총 7개의 글
N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.
Cyclic 구조를 DAG로 펼치는 unrolling부터 BPTT 유도, truncation의 bias-memory 트레이드오프, 그리고 RTRL이 왜 다시 주목받는지까지, RNN 학습 알고리즘의 설계 결정을 추적한다.
Pascanu 2013의 spectral radius 조건부터 saturation 문제, gradient clipping, orthogonal/identity 초기화까지 — RNN 학습 불안정성의 근본 원인과 그 대응의 계보를 추적한다.
Hochreiter 1997의 CEC 비전부터 forget gate 초기화, GRU의 단순화, variants의 ablation 결과까지 — LSTM 설계 철학의 핵심을 추적한다.
양방향 컨텍스트부터 외부 메모리, 무작위 저수지까지 — RNN 확장의 네 가지 방향이 모두 같은 병목을 다른 방식으로 돌파한다는 것을 추적한다.
GPU 병렬성 한계부터 선택적 상태 공간 모델까지, 시퀀스 아키텍처 30년의 진화를 관통하는 하나의 질문을 추적한다.
Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.