AI 2026.05.03 · 12 min
Advanced Rnn Lstm Deep Dive · 1
RNN은 왜 sequence를 기억하는가
N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.
총 6개의 글
N-gram의 sparsity 한계부터 RNN의 parameter sharing과 hidden state 병목, teacher forcing의 exposure bias까지 — sequence 학습의 설계 결정을 관통하는 하나의 논리를 추적한다.
Pascanu 2013의 spectral radius 조건부터 saturation 문제, gradient clipping, orthogonal/identity 초기화까지 — RNN 학습 불안정성의 근본 원인과 그 대응의 계보를 추적한다.
Hochreiter 1997의 CEC 비전부터 forget gate 초기화, GRU의 단순화, variants의 ablation 결과까지 — LSTM 설계 철학의 핵심을 추적한다.
양방향 컨텍스트부터 외부 메모리, 무작위 저수지까지 — RNN 확장의 네 가지 방향이 모두 같은 병목을 다른 방식으로 돌파한다는 것을 추적한다.
Sutskever 2014의 고정 벡터 압축 문제부터 Bahdanau·Luong 어텐션의 설계 결정, 커버리지 메커니즘과 Pointer Network까지, 시퀀스 변환 아키텍처의 진화를 추적한다.
Vanilla RNN의 BPTT부터 vanishing gradient의 수학적 원인, LSTM의 Constant Error Carousel, 그리고 Echo State Network까지 — 순환 구조의 설계 철학을 추적한다.