멀티턴 대화 능력 격차 해소를 위한 TurnWise 연구

TurnWise는 단일턴과 멀티턴 대화 성능 차이를 정량화하는 TurnWiseEval 벤치마크와, 기존 단일턴 데이터에 멀티턴 컨텍스트를 자동으로 추가하는 TurnWiseData 파이프라인을 제시한다. 실험 결과, Olmo 3 모델에 10 k 정도의 합성 멀티턴 대화를 사후 학습에 포함시키면 TurnWiseEval 점수가 최대 12 % 상승한다는 것을 보여준다.

저자: Victoria Graf, Valentina Pyatkin, Nouha Dziri

멀티턴 대화 능력 격차 해소를 위한 TurnWise 연구
본 논문은 대규모 언어 모델(LLM)의 실제 활용 환경이 점점 더 멀티턴 대화를 요구함에도 불구하고, 현재 공개된 학습·평가 데이터와 레시피가 대부분 단일턴 질문‑응답 형태에 머물러 있다는 근본적인 문제를 제기한다. 이러한 격차를 정량화하고 해소하기 위해 두 가지 주요 도구를 제시한다. 첫 번째는 TurnWiseEval 벤치마크이며, 두 번째는 TurnWiseData라는 합성 멀티턴 데이터 생성 파이프라인이다. **TurnWiseEval 설계** TurnWiseEval은 동일한 ‘시드 명령’에 대해 (1) 단일턴 프롬프트와 (2) 멀티턴 대화 흐름 두 가지 형태를 만든다. 멀티턴 대화는 최대 8개의 사용자 턴을 포함하며, 각 턴은 독립적으로 생성된 질문으로 구성된다. 평가 방식은 두 가지 변형으로 나뉜다. ‘Absolute’는 멀티턴 대화에 대한 모델의 답변을 강력한 기준 모델(GPT‑4)이 단일턴 프롬프트에 대해 만든 답변과 비교한다. ‘Self’는 동일 모델이 단일턴 프롬프트에 만든 답변과 멀티턴 대화에 대한 답변을 직접 비교한다. 두 경우 모두 GPT‑4.1을 판정자로 사용해 승률(win‑rate)을 측정한다. 승률이 50 % 이하이면 멀티턴 상황에서 성능이 저하된 것으로 해석한다. 이 설계는 (a) 과제 난이도 자체가 아닌 대화 구조에 의한 차이를 포착하고, (b) 사실성·지식 등 다른 능력과의 혼동을 최소화한다는 장점이 있다. **TurnWiseData 파이프라인** TurnWiseData는 기존 단일턴 데이터셋(예: WildChat subset of Dolci Instruct)에서 시드 프롬프트를 추출하고, 이를 기반으로 2~8개의 사용자 턴을 독립적으로 생성한다. 사용자 턴은 두 가지 시나리오로 구분된다. 첫 번째는 ‘불만족 후 재질문(paraphrase)’으로, 초기 응답에 대한 불만을 표현하고 동일 의도를 다른 방식으로 다시 묻는다. 두 번째는 ‘추가 탐색 질문(related query)’으로, 초기 응답이 제공한 정보를 바탕으로 더 깊이 파고드는 질문을 만든다. 생성 모델은 GPT‑4.1이며, 중간 어시스턴트 턴은 기준 모델(GPT‑4)로 채워 대화 흐름을 완성한다. 이렇게 하면 원본 단일턴 데이터의 레이블(예: 선호 쌍) 구조를 보존하면서 멀티턴 컨텍스트를 자연스럽게 삽입할 수 있다. 또한, 기존 연구에서 활용된 self‑talk 방식(모델이 스스로 사용자와 어시스턴트를 번갈아 수행)도 비교 대상으로 포함한다. **실험 설정** Olmo 3 7B Instruct 모델을 대상으로 두 단계의 학습을 수행한다. (1) Supervised Fine‑Tuning(SFT) 단계에서는 기존 단일턴 SFT 데이터에 TurnWiseData 혹은 self‑talk 데이터를 추가한다. (2) Preference Tuning(DPO) 단계에서는 기존 단일턴 선호 데이터에 동일한 멀티턴 데이터를 혼합한다. 데이터 양은 10 k, 20 k 규모로 변형하여 효과를 측정한다. 평가에는 TurnWiseEval‑Absolute, TurnWiseEval‑Self, AlpacaEval(단일턴), IFEval(Instruction‑following), MMLU(지식) 등을 사용한다. **주요 결과** - TurnWiseEval‑Absolute 점수는 기존 모델이 AlpacaEval 대비 크게 낮았으며, GPT‑5 Chat조차도 멀티턴 상황에서 성능 저하를 보였다. - TurnWiseData만 10 k 추가한 경우, TurnWiseEval‑Self 승률이 최대 12.8 %p 상승했으며, Preference‑Tuning에서는 9.2 %p 상승을 기록했다. - 멀티턴 데이터가 전체 선호 데이터의 5 % 미만을 차지해도 의미 있는 개선이 나타났다. - Single‑turn 성능(IFEval, MMLU)은 Preference‑Tuning에서는 거의 변동이 없었고, SFT에서는 약간 감소했지만 이는 데이터 생성기의 품질 의존성으로 해석된다. - TurnWiseData만 사용한 경우가 self‑talk과 혼합한 경우보다 더 큰 성능 향상을 보였으며, 대화 턴 수가 증가할수록 멀티턴 데이터 학습 모델이 성능 감소 폭을 완화한다는 점이 Figure 3에서 확인된다. **의의와 한계** 본 연구는 (1) 멀티턴 대화 능력이 단일턴 능력과 독립적인 평가 차원임을 실증하고, (2) 소량의 고품질 합성 멀티턴 데이터만으로도 현존 모델의 멀티턴 격차를 크게 줄일 수 있음을 보여준다. 또한, TurnWiseEval‑Self은 모델 자체의 단일턴 베이스라인을 기준으로 멀티턴 활용 능력을 직접 측정할 수 있는 새로운 평가 패러다임을 제공한다. 한계점으로는 (a) 합성 데이터가 실제 사용자 로그와 얼마나 일치하는지에 대한 검증이 부족하고, (b) 현재는 8턴 이하의 짧은 대화에 초점을 맞추었으며, 장기 기억·다중 사용자 시나리오에는 아직 적용되지 않았다. 향후 연구에서는 실제 대화 로그와의 혼합, 더 복잡한 대화 구조, 그리고 메모리·플래닝 메커니즘과의 연계 등을 탐색함으로써 멀티턴 학습 파이프라인을 더욱 정교화할 필요가 있다. **결론** TurnWiseEval과 TurnWiseData는 멀티턴 대화 능력을 체계적으로 측정하고 향상시키는 데 있어 실용적인 도구이다. 실험 결과는 멀티턴 데이터가 모델의 대화 지속성, 컨텍스트 활용 능력, 그리고 전반적인 사용자 경험을 크게 개선할 수 있음을 시사한다. 이러한 접근은 앞으로 LLM을 실제 서비스에 적용할 때 필수적인 멀티턴 학습·평가 인프라 구축에 중요한 초석이 될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기