적응형 이론적 사고로 강화된 LLM 기반 다중 에이전트 협조

본 논문은 대형 언어 모델(LLM) 에이전트가 협업 시 상대방의 사고 깊이(Theory of Mind, ToM)와 정렬되지 않을 경우 협조 성능이 크게 저하된다는 점을 발견하고, 파트너의 ToM 차수를 실시간으로 추정·조정하는 적응형 ToM(A‑ToM) 에이전트를 제안한다. A‑ToM은 가상의 ToM‑0, ToM‑1, ToM‑2 에이전트를 전문가 집합으로 두고 온라인 전문가 조언 알고리즘(FTL, Hedge)을 통해 가장 신뢰도 높은 차수를 선…

저자: Chunjiang Mu, Ya Zeng, Qiaosheng Zhang

적응형 이론적 사고로 강화된 LLM 기반 다중 에이전트 협조
본 논문은 대형 언어 모델(LLM) 기반 에이전트가 다중 에이전트 협조 상황에서 ‘이론적 사고(The­ory of Mind, ToM)’를 활용해 파트너의 행동을 예측하고, 이를 바탕으로 협조 행동을 선택한다는 기존 연구 흐름을 비판적으로 재검토한다. 저자들은 ToM 차수(즉, 재귀적 사고 깊이)의 불일치가 협조 성능을 크게 저하시킨다는 사실을 실험적으로 확인하고, 이를 해결하기 위한 ‘적응형 ToM(A‑ToM)’ 에이전트를 제안한다. **1. 문제 정의와 ToM 차수 모델링** - ToM‑k 에이전트는 파트너를 ToM‑(k‑1) 에이전트로 가정하고, 재귀적으로 파트너의 행동을 예측한다. 식(3)‑(9)를 통해 ToM‑0(환경만 고려), ToM‑1(파트너 행동 예측), ToM‑2(파트너의 ToM‑1 가정)까지 정의한다. - 이론적으로 ToM‑k 에이전트는 ToM‑(k‑1) 혹은 ToM‑(k+1) 파트너와 가장 잘 맞는다. 차이가 크면 과도한 추론(불필요한 계산) 혹은 부족한 추론(예측 부정확)으로 이어진다. **2. 적응형 ToM(A‑ToM) 설계** - A‑ToM은 세 개의 가상 에이전트(ToM‑0, 1, 2)를 ‘전문가’로 두고, 각 전문가의 예측 정확도를 손실(L) 혹은 가중치(w) 형태로 누적한다. - 온라인 전문가 조언 문제로 모델링하여 두 가지 알고리즘을 적용한다. - *Follow‑the‑Leader(FTL)*: 누적 손실이 최소인 차수를 선택, 안정적인 파트너에 대해 O(log T) 레그레트 보장. - *Hedge*: 확률적 가중치 업데이트, 비정상적·비정상적인 파트너 행동에도 O(√T log N) 레그레트 제공. - 차수 선택 후, 선택된 차수의 가상 에이전트가 예측한 파트너 행동을 기반으로 실제 행동을 결정한다. **3. LLM 기반 에이전트 구현** - 네 모듈: (1) 상태 인코딩 – 환경 정보를 자연어로 변환, (2) ToM 모듈 – 재귀 호출로 가상 에이전트 행동 생성, (3) 의사결정 – 파트너 예측과 현재 상태를 프롬프트에 삽입해 LLM에게 최적 행동을 출력하도록 함, (4) 액션 컨트롤러 – 자연어 행동을 실제 환경 명령으로 변환. - LLM은 GPT‑4‑Turbo 등 최신 모델을 사용했으며, 출력 검증을 생략해 지연을 최소화하였다. **4. 실험 설정** - **반복 매트릭스 게임**: 두 옵션(A, B) 중 선택; 서로 다르면 5점, 동일하면 0점. 메모리‑1(직전 행동 관찰)과 메모리‑N(누적 선택 횟수) 두 설정. - **그리드 내비게이션**: 두 에이전트가 서로 다른 목표 지점에 도달해야 함. 충돌 방지를 위해 파트너 이동 의도 예측이 필수. 두 변형(간단·복잡) 제공. - **Overcooked**: 협동 요리 과제로, 재료 전달·조리 순서가 복잡하고 시간 제한이 있음. **5. 실험 결과** - 모든 과제에서 A‑ToM은 기존 ToM‑1/2 에이전트보다 높은 성공률과 총 보상을 기록했다. - 매트릭스 게임에서는 A‑ToM이 초기 라운드에서 파트너 차수를 정확히 추정해 일관된 비대칭 선택을 유지, 기존 에이전트는 초기 충돌이 빈번했다. - 그리드 내비게이션에서는 Hedge 기반 가중치 업데이트가 파트너가 전략을 바꾸는 경우에도 빠르게 적응, 충돌률을 30% 이상 감소시켰다. - Overcooked에서는 A‑ToM이 파트너의 ToM 차수를 맞추어 작업 분담을 최적화, 평균 요리 완료 시간이 12% 단축되었다. **6. 일반화와 한계** - 차수 추정 메커니즘은 LLM에 국한되지 않으며, 전통적인 강화학습(RL) 에이전트에도 적용 가능하다고 주장한다. - 파트너가 완전히 무작위이거나 ToM 차수가 변하지 않을 경우, 차수 정렬의 효과가 감소한다는 점을 언급한다. 이는 실제 로봇 협업이나 자율주행 등에서 파트너의 인지 능력이 제한적일 때 A‑ToM이 불필요할 수 있음을 시사한다. **7. 결론** - ToM 차수 정렬이 다중 에이전트 협조의 핵심 요인임을 실험적으로 입증하였다. - 적응형 ToM(A‑ToM) 에이전트는 온라인 전문가 조언 알고리즘을 통해 파트너 차수를 실시간으로 추정·조정함으로써, 다양한 협조 과제에서 기존 방법보다 일관된 성능 향상을 달성했다. - 향후 연구는 더 높은 차수(ToM‑3 이상)와 비협조적/적대적 환경에서의 적용, 그리고 실제 로봇 시스템에의 통합을 목표로 할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기