잠재공간 지속 메모리: 고정형 인코더‑디코더 LLM을 위한 여섯 가지 설계

본 논문은 고정된 인코더‑디코더 대형 언어 모델(LLM)인 Flan‑T5‑XL에 작은 어댑터만을 추가해, 모델이 세션 간에 정보를 유지할 수 있는 “잠재공간 지속 메모리”를 구현한다는 점에서 새로운 연구 방향을 제시한다. 기존 LLM은 각 턴 xₜ 에 대해 인코더 E_frozen이 Zₜ = E_frozen(xₜ) 를 생성하고, 디코더 D_frozen이 Zₜ 를 바로 사용해 출력 ŷₜ 를 만든 뒤 Zₜ 를 버린다. 따라서 모델은 상태가 없으며, 이전 대화 내용이나 사실을 기억하지 못한다. 이러한 “무상태” 문제를 해결하기 위해 저자는 Pₜ ∈ ℝ^{n_P × d} 라는 지속 메모리 뱅크를 도입하고, Zₜ 를 Pₜ 에 누적시키는 Write 연산과 Pₜ 를 디코더에 주입하는 Read 연산을 설계한다. 핵심은 θ_Mem 이라는 소규모 파라미터 집합만을 학습하고, 인코더와 디코더는 완전히 고정한다는 점이다. ### 설계 차원 논문은 세 가지 삽입 지점(인코더 입력 앞, 인코더‑디코더 사이, 디코더 내부)과 네 가지 쓰기 메커니즘(Attention‑Coupled, Hebbian 외적, Gated Cross‑Attention, Sparse Slot)을 조합해 총 여섯 가지 아키텍처를 만든다. 각 방법은 Table 1에 정리된 바와 같이 “Delegated Read”(디코더의 기존 Cross‑Attention이 메모리를 직접 선택)와 “Explicit Read”(어댑터가 별도 검색을 수행)로 구분된다. 1. **M.1 – Prefix (Encoder‑Input Prefix)** - 메모리를 m 개의 소프트 토큰으로 압축해 인코더 입력 앞에 붙인다. - 인코더가 메모리와 현재 입력을 동시에 처리하므로 디코더는 전혀 변하지 않는다. - 쓰기 연산은 현재 Zₜ와 기존 Pₜ₋₁ 사이의 어텐션을 통해 Pₜ = γ Pₜ₋₁ + AᵀV 로 업데이트한다. 2. **M.2 – Parallel Decoder Cross‑Attention (XAttn)** - 디코더 각 레이어에 병렬 Cross‑Attention 모듈을 삽입한다(Flamingo 방식). - 메모리 Pₜ₋₁을 별도 KV 캐시로 제공하고, 디코더의 기존 어텐션과 선형 결합한다. - 메모리 영향은 레이어별 가중치 βₗ 으로 조절되며, 디코더 가중치는 고정된다. 3. **M.3 – KV‑Extension** - 디코더 KV‑cache에 Pₜ₋₁을 직접 연결한다. - 기존 캐시와 병합된 형태로 디코더가 자체적으로 선택하도록 만든다. 4. **M.4 – Hebbian (Outer‑Product Associative Memory)** - 현재 Zₜ 의 Q, K, V 프로젝션을 사용해 Hebbian 업데이트를 수행한다. - Pₜ = γ M + (ZₜW_K)ᵀ(ZₜW_V) 와 같은 외적 연산으로 메모리를 강화한다. 5. **M.5 – Gated Cross‑Attention** - 현재 디코더 상태 s와 메모리 요약 c를 입력으로 게이트 gₜ = σ(W_g

잠재공간 지속 메모리: 고정형 인코더‑디코더 LLM을 위한 여섯 가지 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기