협업 엔트로피 다중 LLM 시스템 불확실성 정량화
본 논문은 다중 대형 언어 모델(LLM) 협업에서 발생하는 의미적 불확실성을 정량화하기 위해 ‘협업 엔트로피(CoE)’라는 새로운 정보이론 기반 지표를 제안한다. CoE는 공유된 의미 클러스터 공간 위에서 각 모델의 내부 엔트로피(aleatoric)와 모델 간 평균 분포와의 KL 발산(epistemic)을 합산하여 시스템 수준의 불확실성을 측정한다. 이론적 성질(비음성, 완전 합의 시 0, 개별 모델이 델타 분포로 수렴할 때의 행동)을 증명하고…
저자: Kangkang Sun, Jun Wu, Jianhua Li
본 논문은 다중 대형 언어 모델(LLM) 기반 에이전시 시스템에서 발생하는 ‘의미적 불확실성’이라는 새로운 문제를 정의하고, 이를 정량화하기 위한 협업 엔트로피(Collaborative Entropy, CoE)라는 메트릭을 제안한다. 기존의 불확실성 정량화 방법은 주로 단일 모델 내부의 토큰‑레벨 엔트로피, self‑consistency, semantic entropy 등으로 모델 자체의 확신도를 측정한다. 그러나 다중 모델이 협업할 경우, 각 모델이 내부적으로는 확신이 높아도 의미적으로 서로 다른 답변을 제시할 수 있다. 이러한 ‘inter‑model semantic disagreement’를 포착하지 못하면 시스템 전체의 신뢰성을 제대로 평가할 수 없게 된다.
CoE는 이러한 문제를 해결하기 위해 두 단계로 구성된다. 첫 번째는 모든 모델이 동일한 입력에 대해 생성한 답변을 양방향 함의(entailment) 기반 클러스터링을 통해 의미 클러스터 {c₁,…,c_l}에 할당하고, 각 클러스터에 대한 확률 분포 p_i(c|x)를 만든다. 이때 각 모델의 내부 의미 엔트로피 S_E(x_i)=−∑_c p_i(c|x)log p_i(c|x)는 ‘aleatoric’ 불확실성을 나타낸다. 두 번째는 모델 간의 분포 차이를 비대칭 KL 발산 D_KL(p_i‖p̄) 형태로 측정한다. 여기서 p̄=∑_i w_i p_i는 가중 평균 분포이며, KL 발산은 ‘epistemic’ 불확실성, 즉 모델 간 의미적 차이를 정량화한다. CoE는 이 두 항을 단순히 합산한 형태로 정의된다:
U_CoE(K)= (1/|K|)∑_{i∈K} S_E(x_i) + ∑_{i∈K} w_i·D_KL(p_i‖p̄)
이 정의는 CoE가 ‘시스템‑레벨’ 불확실성 지표이며, 개별 모델의 성능을 평가하거나 특정 모델을 선택하는 ‘가중 평균 예측기’와는 구별된다.
논문은 CoE에 대해 세 가지 핵심 정리를 증명한다.
1. **Non‑Negativity (정리 1)**: CoE는 언제나 0 이상이며, 이는 불확실성 지표로서 최소값이 존재함을 보장한다.
2. **Zero‑Value Certainty (정리 2)**: 모든 모델이 동일한 의미 클러스터에 확률 1을 할당하면 CoE=0이 된다. 즉, 완전 의미적 합의가 이루어졌을 때 시스템 불확실성이 사라진다.
3. **Delta‑Distribution Behavior (정리 3)**: 각 모델이 내부적으로 델타 분포(내부 엔트로피 0)로 수렴하면 aleatoric 항은 사라지지만, 모델 간 KL 발산이 남아 있을 경우 CoE>0가 된다. 이는 모델 간 의미적 차이가 존재하면 개별 모델의 확신만으로는 시스템 불확실성을 제거할 수 없음을 의미한다.
이론적 분석을 바탕으로 저자들은 **CoE‑guided post‑hoc coordination heuristic**을 제안한다. 이 방법은 추론 시점에 CoE를 계산하고, 높은 inter‑model KL 발산을 보이는 모델에 가중치를 낮추거나, 클러스터 재배치를 통해 평균 분포를 조정한다. 모델 파라미터를 수정하지 않으면서도 시스템 전체의 CoE를 최소화하도록 설계돼, 실시간 협업 시스템에 적합하다.
실험에서는 세 가지 공개된 instruction‑tuned LLM(LLaMA‑3.1‑8B‑Instruct, Qwen‑2.5‑7B‑Instruct, Mistral‑7B‑Instruct)을 사용해 TriviaQA와 SQuAD 벤치마크에서 성능을 평가했다. 평가 지표는 AUROC와 AURAC(불확실성 기반 정확도‑재현율 곡선)이며, CoE 기반 선택이 기존 토큰‑레벨 엔트로피, self‑consistency, semantic entropy 등 대비 평균 4~7%p 향상을 보였다. 특히 모델 수가 2→3개로 늘어날수록 CoE의 이점이 확대되는 점은 다중 모델 간 의미적 다양성을 효과적으로 포착한다는 증거다.
논문의 주요 기여는 다음과 같다.
- **시스템‑레벨 불확실성 메트릭**: CoE는 aleatoric과 epistemic을 명확히 구분하고, 의미 클러스터 기반으로 표면적 변형에 강인하게 설계되었다.
- **이론적 보증**: 비음성, 완전 합의 시 0, 개별 모델이 델타 분포일 때의 행동을 정리함으로써 메트릭의 해석 가능성을 높였다.
- **경량 사후 조정 기법**: CoE‑guided heuristic은 훈련‑무료이며, 가중치 재조정만으로 시스템 불확실성을 감소시킨다.
- **실증적 검증**: 다양한 모델 조합과 두 데이터셋에서 기존 방법 대비 우수한 불확실성 추정 성능을 입증하였다.
한계점으로는 의미 클러스터링 단계가 품질에 크게 의존한다는 점이다. 클러스터링이 부정확하면 p_i 분포가 왜곡되어 CoE가 잘못된 불확실성을 측정할 위험이 있다. 또한 대규모 실시간 서비스에서 클러스터링 및 KL 계산 비용이 병목이 될 수 있다. 향후 연구는 (1) 자동화된 고품질 클러스터링 알고리즘, (2) 동적 가중치 학습을 통한 CoE 최소화, (3) 인간‑모델 인터랙션에 CoE를 적용해 인간 피드백을 활용한 불확실성 감소 방안 등을 탐색할 필요가 있다.
결론적으로, CoE는 다중 LLM 협업 시스템에서 의미적 불확실성을 정량화하고, 이를 기반으로 시스템 신뢰성을 향상시키는 강력한 도구로 자리매김한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기