LLM 에이전트 평가를 위한 ECDF 기반 클러스터링

본 논문은 LLM 기반 에이전트의 다중 응답을 코사인 유사도 ECDF로 변환하고, 이를 k‑medoids 클러스터링으로 그룹화함으로써 기존의 정답 일치율만으로는 드러나지 않는 응답 품질 분포와 설정 간 차이를 정량적으로 분석한다. 실험은 QA 데이터셋에서 온도와 페르소나 변화를 대상으로 수행되었다.

저자: ** (논문에 명시된 저자 정보가 제공되지 않아 정확히 기재할 수 없습니다. 일반적으로 “저자명1, 저자명2, …” 형태로 기재됩니다.) **

LLM 에이전트 평가를 위한 ECDF 기반 클러스터링
본 논문은 최근 LLM(대형 언어 모델)이 에이전트 형태로 다양한 복합 작업—예를 들어 질문 응답(QA), 과학적 토론, 소프트웨어 개발—에 활용되는 현상을 배경으로, 이러한 에이전트 시스템을 평가하는 기존 방법의 한계를 지적한다. 전통적인 평가 파이프라인은 동일 질문에 대해 여러 응답을 생성한 뒤, 다수결이나 신뢰도 가중 투표와 같은 집계 방식을 통해 하나의 최종 답을 도출하고, 이 최종 답을 정답과 비교해 정확도(accuracy)나 BLEU, BERTScore와 같은 이산형 지표로 성능을 측정한다. 그러나 이 과정은 원본 응답들의 품질 분포를 숨기며, “정답 일치율이 동일한 두 설정”이라도 실제 응답들의 질적 차이가 클 수 있음을 간과한다. 예를 들어, 모든 응답이 정확한 경우와 절반만 정확한 경우를 다수결만으로는 구분하기 어렵고, 틀린 응답이라도 정답에 근접한 정도가 다를 수 있다. 이를 해결하고자 저자들은 응답 집합을 코사인 유사도 기반의 경험적 누적분포함수(ECDF)로 변환하는 새로운 평가 프레임워크를 제안한다. 구체적인 절차는 다음과 같다. 1) 각 질문‑설정(pair)마다 LLM 에이전트가 생성한 nₚᵢᵩᶜ 개의 응답을 임베딩 모델(f_ϕ, 여기서는 paraphrase‑MiniLM‑L6‑v2)로 벡터화한다. 2) 각 응답 벡터와 정답 집합의 모든 정답 벡터 간 코사인 유사도를 계산하고, 그 중 최대값을 해당 응답의 “품질 점수”로 정의한다. 3) 이 점수들의 집합에 대해 ECDF \(\hat F\)를 구한다. ECDF는 입력값 x 이하인 점수의 비율을 반환하는 단계 함수이며, 히스토그램과 달리 구간 설정이 필요 없고, 샘플 수가 달라도 직접 비교가 가능하다는 장점이 있다. 다음으로, 다수의 ECDF들을 서로 비교하기 위해 거리 함수를 정의한다. 저자는 L1 거리(절대값 차의 합)를 사용했으며, 이는 두 ECDF 사이의 1‑Wasserstein 거리와 동등함을 보인다. 이렇게 얻은 거리 행렬 D를 기반으로 k‑medoids(PAM) 클러스터링을 수행한다. k‑medoids는 실제 데이터 포인트를 메도이드(대표점)로 삼아 군집을 형성하므로, 비벡터 형태인 ECDF에도 그대로 적용할 수 있다. BUILD 단계에서는 거리 합이 최소가 되도록 초기 메도이드를 선택하고, SWAP 단계에서는 메도이드와 비메도이드 간 교환을 반복해 전체 비용을 최소화한다. 군집 수 k는 사전에 지정한다. 실험은 Stanford Question Answering Dataset(SQuAD)에서 추출한 QA 서브셋을 사용했다. 두 가지 주요 설정 변수를 조작하였다. 첫 번째는 페르소나(P) 설정으로, Persona Hub에서 50개의 페르소나 텍스트를 프롬프트에 삽입하거나 삽입하지 않는 경우를 비교했다. 두 번째는 온도(T) 설정으로, β = 1(높은 온도)와 β = 2π/(n₀) ≈ 0.125(낮은 온도)를 사용해 생성 다양성을 조절했다. 각 질문당 10개의 응답을 수집하고, 위 절차에 따라 ECDF를 계산하였다. 예비 실험에서는 동일한 정확도(예: 0 %, 33 %, 67 %, 100 %)를 보이는 설정들 사이에서도 ECDF 형태가 크게 달라지는 것을 확인했다. 특히, 정확도가 33 %인 경우에도 일부 설정은 대부분의 응답이 정답에 근접한 높은 코사인 유사도를 보이는 반면, 다른 설정은 낮은 유사도에 머무르는 등 품질 분포가 크게 차이났다. 이는 기존 정확도 지표만으로는 드러나지 않는 미세한 차이를 ECDF가 포착한다는 것을 의미한다. 클러스터링 결과는 온도와 페르소나에 따라 서로 다른 군집 구조를 형성했다. 고온도 설정은 응답 다양성이 커서 ECDF가 좌측(낮은 유사도)으로 퍼지는 경향을 보였으며, 저온도 설정은 응답이 정답에 집중돼 ECDF가 우측에 몰렸다. 페르소나가 명시된 경우는 특정 주제에 대한 일관된 응답이 증가해, 해당 설정들끼리 유사한 ECDF 군집을 형성했다. 이러한 군집은 설정 간 영향력을 정량적으로 파악하고, 프롬프트 설계나 온도 튜닝에 대한 실용적인 가이드라인을 제공한다. 논문의 한계점으로는 코사인 유사도에 의존함으로써 의미론적 차이를 완전히 포착하지 못할 가능성, 임베딩 모델 선택에 따른 ECDF 변동성, 그리고 k‑medoids의 군집 수 k를 사전에 지정해야 하는 점을 들 수 있다. 향후 연구에서는 의미론적 유사도를 보완하는 다중 메트릭 결합, 자동 k 선택 방법, 그리고 다른 거리 함수(L2, KL 등)를 탐색함으로써 프레임워크를 확장할 수 있다. 결론적으로, 이 논문은 LLM 기반 에이전트의 다중 응답을 연속적인 품질 분포로 변환하고, 이를 클러스터링함으로써 기존 이산형 정확도 지표를 보완하는 새로운 평가 패러다임을 제시한다. ECDF 기반 분석은 설정 간 차이를 시각·정량화하고, 에이전트 설계·튜닝 과정에서 보다 풍부한 인사이트를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기