지속 가능한 지식 편집을 위한 희소 회로 앵커 신경망 SCAN
SCAN은 희소 전이코더와 귀속 그래프를 이용해 LLM 내부의 지식 회로를 정확히 찾아내고, 해당 회로에만 제한적인 파라미터 수정·스티어링을 수행한다. 이를 통해 3,000번 이상의 순차 편집 후에도 MMLU·GSM8K와 같은 일반 능력은 유지되며, 기존 방법이 보이는 파괴적 망각과 모델 붕괴를 효과적으로 방지한다.
저자: Yuhuan Liu, Haitian Zhong, Xinyuan Xia
본 논문은 대규모 언어 모델(LLM)의 순차적 지식 편집에서 발생하는 ‘catastrophic forgetting’과 모델 붕괴 문제를 해결하기 위해 ‘SCAN(Sparse Circuit Anchor Neuron)’이라는 새로운 프레임워크를 제안한다. 기존의 밀집 편집 기법은 모델을 블랙박스로 취급하고, 파라미터 블록 전체를 수정하거나 전체 잔차 스트림에 스티어링 벡터를 주입함으로써 비관련 지식을 손상시킨다. 이러한 접근법은 특히 순차 편집 상황에서 누적된 비최소화 파라미터 변경으로 인해 기존 지식이 점진적으로 사라지고, 최악의 경우 모델이 완전히 붕괴하는 현상을 초래한다.
저자들은 이러한 문제를 ‘희소성(sparsity)’과 ‘기계적 해석(mechanistic interpretability)’을 결합한 방법으로 해결하고자 한다. 핵심 아이디어는 두 단계로 이루어진다. 첫 번째 단계에서는 사전 학습된 LLM에 ‘Sparse Transcoder’를 부착한다. 이 전이코더는 기존 MLP의 키‑값 메모리 구조를 고차원에서 저차원 희소 특징(z)으로 재구성한다. ℓ1 정규화 손실을 통해 특징의 활성화를 강제함으로써 각 특징이 단일 개념을 담당하도록 만든다(단일 의미성, monosemanticity). 이렇게 함으로써 파라미터가 실제로 해당 사실에 기여하는 부분만을 식별할 수 있다.
두 번째 단계에서는 편집 대상 삼중항(e = (s, r, o → o*))에 대해 입력 프롬프트를 전방 전달하고, 전이코더의 활성화된 특징들을 노드로 하는 완전 그래프 G = (V, E, AS)를 만든다. 여기서 V는 임베딩, 특징, 오류, 로짓 등 모든 잠재적 원인 노드를 포함하고, E는 모든 쌍을 연결한다. 초기 귀속 점수 AS는 0으로 설정된 뒤, 실제 전방 전달 과정에서 각 노드의 활성화와 그 영향을 기반으로 계산된다.
귀속 점수는 직접(한 단계)와 간접(다단계) 영향을 모두 고려한다. 직접 귀속은 특정 노드 u가 노드 v에 미치는 영향을 ∂M_v/∂z_u·z_u 로 근사한다. 간접 귀속은 두 단계, 세 단계 등 경로 길이에 따라 행렬 A², A³ 등을 곱해 누적한다. 최종적으로 모든 경로 길이에 대한 귀속을 합산한 총 귀속 행렬 B는 B = (I − A)⁻¹ − I 로 닫힌 형태로 계산된다(단, ∥A∥ < 1 조건 필요).
총 귀속 행렬 B를 기반으로, 목표 노드(v)와 가장 큰 기여를 하는 상위 노드들을 내림차순으로 정렬하고, 누적 임계값 τ를 초과할 때까지 엣지를 유지한다. 이 과정을 통해 ‘희소 회로’ G′가 도출되며, 여기에는 편집에 필수적인 소수의 특징 노드와 그 연결만이 남는다.
편집 단계에서는 G′에 포함된 특징 u에 대응하는 전이코더 디코더 가중치 fᵤ^dec 를 목표 객체 o*에 맞게 수정한다. 수정 전후 차이 Δv_tc = ∑_{u∈G′} P_u z_u ( \hat fᵤ^dec − fᵤ^dec ) 를 계산하고, 이를 정확히 동일한 회로 위치에 스티어링 벡터로 주입한다. 최적화 목표는 −log P(o* | x) 를 최소화하는 것이며, 편집된 디코더는 이후 순차 편집에서도 재사용된다.
테스트 단계에서는 편집 시 기록된 특징 집합 V_A 와 현재 프롬프트에서 추출된 특징 집합 V_B 사이의 Jaccard 유사도 J(V_A, V_B)를 계산한다. J가 사전 정의된 임계값을 초과하면, 해당 특징들을 스티어링 트리거로 활용해 목표 답변을 유도한다.
실험에서는 Gemma2, Qwen3, Llama3.1 모델에 대해 CounterFact, ZsRE, WikiFactDiff 벤치마크를 사용해 3,000번에 달하는 순차 편집을 수행하였다. SCAN은 편집 정확도와 유지 정확도 모두에서 기존 MEMIT, ROME, MEND 등과 비교해 10~20%p 이상 높은 성능을 보였으며, MMLU·GSM8K와 같은 일반 능력 지표는 편집 전후 차이가 거의 없었다. 특히, 편집이 누적될수록 다른 방법들은 성능이 급격히 하락하고 최종적으로 ‘model collapse’ 현상을 보였지만, SCAN은 회로 기반의 희소 수정 덕분에 안정성을 유지했다.
이 논문은 (1) 파라미터 수정 범위를 최소화해 비관련 지식 보존, (2) 특징 단위의 단일 의미성을 확보해 편집 부작용 감소, (3) 귀속 그래프를 통한 투명한 편집 경로 제공이라는 세 가지 차원에서 기존 편집 패러다임을 뛰어넘는다. 또한, 희소 전이코더와 총 귀속 행렬을 활용한 회로 식별 방법은 향후 LLM 내부 메커니즘 해석 및 제어에 대한 새로운 연구 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기