AI 2026.05.03 · 11 min
Advanced Llm Alignment Deep Dive · 7
LLM 의 Safety 는 하나의 벡터로 요약될 수 있는가
Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.
총 1개의 글
Red teaming 으로 공격을 발견하고, adversarial training 으로 방어하고, refusal 방향을 mechanistic 하게 추출하기까지 — LLM alignment 의 공격과 방어 구조를 추적한다.