잠재공간 지속 메모리: 고정형 인코더‑디코더 LLM을 위한 여섯 가지 설계
본 논문은 고정된 Flan‑T5‑XL 백본에 작은 어댑터만을 추가해, 인코더‑디코더 LLM의 연속 잠재공간에 지속 메모리를 구축하는 가능성을 실증한다. 3개의 삽입 위치와 4개의 쓰기 메커니즘을 조합한 6가지 아키텍처를 제안하고, LoCoMo 벤치마크에서 1배·10배 메모리 용량을 비교한다. 10배 용량에서는 모든 방법이 기억 회복 곡선을 보이며, 1배에서는 절반 이상이 성능이 급락한다. 결과는 메모리 용량이 설계에 결정적 영향을 미침을 보여준…
저자: Hong Jeong
본 논문은 고정된 인코더‑디코더 대형 언어 모델(LLM)인 Flan‑T5‑XL에 작은 어댑터만을 추가해, 모델이 세션 간에 정보를 유지할 수 있는 “잠재공간 지속 메모리”를 구현한다는 점에서 새로운 연구 방향을 제시한다. 기존 LLM은 각 턴 xₜ 에 대해 인코더 E_frozen이 Zₜ = E_frozen(xₜ) 를 생성하고, 디코더 D_frozen이 Zₜ 를 바로 사용해 출력 ŷₜ 를 만든 뒤 Zₜ 를 버린다. 따라서 모델은 상태가 없으며, 이전 대화 내용이나 사실을 기억하지 못한다. 이러한 “무상태” 문제를 해결하기 위해 저자는 Pₜ ∈ ℝ^{n_P × d} 라는 지속 메모리 뱅크를 도입하고, Zₜ 를 Pₜ 에 누적시키는 Write 연산과 Pₜ 를 디코더에 주입하는 Read 연산을 설계한다. 핵심은 θ_Mem 이라는 소규모 파라미터 집합만을 학습하고, 인코더와 디코더는 완전히 고정한다는 점이다.
### 설계 차원
논문은 세 가지 삽입 지점(인코더 입력 앞, 인코더‑디코더 사이, 디코더 내부)과 네 가지 쓰기 메커니즘(Attention‑Coupled, Hebbian 외적, Gated Cross‑Attention, Sparse Slot)을 조합해 총 여섯 가지 아키텍처를 만든다. 각 방법은 Table 1에 정리된 바와 같이 “Delegated Read”(디코더의 기존 Cross‑Attention이 메모리를 직접 선택)와 “Explicit Read”(어댑터가 별도 검색을 수행)로 구분된다.
1. **M.1 – Prefix (Encoder‑Input Prefix)**
- 메모리를 m 개의 소프트 토큰으로 압축해 인코더 입력 앞에 붙인다.
- 인코더가 메모리와 현재 입력을 동시에 처리하므로 디코더는 전혀 변하지 않는다.
- 쓰기 연산은 현재 Zₜ와 기존 Pₜ₋₁ 사이의 어텐션을 통해 Pₜ = γ Pₜ₋₁ + AᵀV 로 업데이트한다.
2. **M.2 – Parallel Decoder Cross‑Attention (XAttn)**
- 디코더 각 레이어에 병렬 Cross‑Attention 모듈을 삽입한다(Flamingo 방식).
- 메모리 Pₜ₋₁을 별도 KV 캐시로 제공하고, 디코더의 기존 어텐션과 선형 결합한다.
- 메모리 영향은 레이어별 가중치 βₗ 으로 조절되며, 디코더 가중치는 고정된다.
3. **M.3 – KV‑Extension**
- 디코더 KV‑cache에 Pₜ₋₁을 직접 연결한다.
- 기존 캐시와 병합된 형태로 디코더가 자체적으로 선택하도록 만든다.
4. **M.4 – Hebbian (Outer‑Product Associative Memory)**
- 현재 Zₜ 의 Q, K, V 프로젝션을 사용해 Hebbian 업데이트를 수행한다.
- Pₜ = γ M + (ZₜW_K)ᵀ(ZₜW_V) 와 같은 외적 연산으로 메모리를 강화한다.
5. **M.5 – Gated Cross‑Attention**
- 현재 디코더 상태 s와 메모리 요약 c를 입력으로 게이트 gₜ = σ(W_g
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기