#adversarial-training

AI 2026.05.03 · 11 min Advanced Llm Alignment Deep Dive · 7

Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.