질문을 통한 인터랙티브 추론 결과 기반 질문 최적화 전략

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Socratic Students: Teaching Language Models to Learn by Asking Questions
  • ArXiv ID: 2512.13102
  • 발행일: 2025-12-15
  • 저자: Rajeev Bhatt Ambati, Tianyi Niu, Aashu Singh, Shlok Mishra, Snigdha Chaturvedi, Shashank Srivastava

📝 초록 (Abstract)

대형 언어 모델(LLM)은 주로 질문에 대한 답변을 제공하는 데 사용되지만, 튜터링이나 임상 지원과 같은 고위험 분야에서는 정보를 탐색하고 명확히 하기 위해 질문을 제기하는 능력도 필수적이다. 본 연구는 정보가 부족하거나 불명확한 상황을 감지하고, 교사 모델에게 추가 정보를 요청한 뒤, 제한된 턴 수 내에 원래 과제를 해결하는 인터랙티브 프로토콜을 제안한다. 각 교사 응답 후 학생 모델을 원래 과제에 적용해 Pass@k를 측정한다. 우리는 결과 기반 질문 최적화 전략(ODQS)을 도입하여, 하위 과제 성과를 직접 피드백으로 활용해 질문 정책을 학습한다. 매 턴마다 여러 후보 질문을 생성하고, 각각을 교사에게 질의한 뒤 학생의 성과를 점수화한다. 이 점수를 이용해 학생 모델을 지도 학습(Supervised Fine‑Tuning) 후 인간 라벨 없이 직접 선호 최적화(DPO)로 미세 조정한다. GSM8K, HumanEval, OpenCoder 등에서 ODQS는 기존 인터랙티브 베이스라인 대비 Pass@5를 수학 분야에서 최대 54.7%p, 코딩 분야에서 22.9%p 향상시키고, 동일 성능을 3턴 적게 달성한다. 따라서 질문 생성 능력을 과제 결과로부터 직접 학습함으로써 정확도와 효율성을 동시에 개선할 수 있음을 보여준다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 “질문”이라는 행동을 LLM의 핵심 능력으로 재정의하고, 이를 학습 가능한 정책으로 전환하는 혁신적인 프레임워크를 제시한다. 전통적인 LLM 활용 방식은 주어진 프롬프트에 대해 가능한 한 정확한 답을 생성하는 데 초점을 맞추지만, 실제 고위험 응용에서는 사용자가 제공한 정보가 불완전하거나 모호할 때 추가적인 질의가 필요하다. 이러한 상황을 모델이 스스로 인식하고, 교사 모델(보다 강력한 LLM)에게 보완 정보를 요청하도록 학습시키는 것이 핵심 아이디어이다.

ODQS는 두 단계 학습 파이프라인을 사용한다. 첫 번째 단계는 “다중 후보 질문 생성”이다. 학생 모델은 현재 컨텍스트와 목표 과제에 기반해 여러 질문을 샘플링하고, 각각을 교사에게 전달한다. 교사는 각 질문에 대해 답변을 제공하고, 학생은 그 답변을 활용해 원래 과제를 다시 시도한다. 두 번째 단계는 “성과 기반 점수링”이다. 학생이 각 질문‑답변 쌍을 사용해 얻은 Pass@k 점수를 직접 피드백으로 활용한다. 이 점수는 질문의 유용성을 정량화하는 역할을 하며, 이후 지도 학습과 DPO(Direct Preference Optimization) 단계에서 손실 함수에 포함된다. 특히 인간 라벨이 전혀 필요 없다는 점은 비용 효율성 측면에서 큰 장점이다.

실험 결과는 두드러진 성능 향상을 보여준다. 수학 문제집인 GSM8K에서는 Pass@5가 54.7%p 상승했으며, 코딩 과제인 HumanEval과 OpenCoder에서도 각각 22.9%p와 유사한 수준의 개선을 기록했다. 흥미롭게도 동일한 최종 정확도를 달성하는 데 필요한 턴 수가 평균 3턴 감소했는데, 이는 질문이 “정보 탐색”이라는 비용을 최소화하면서도 핵심 정보를 빠르게 획득한다는 것을 의미한다.

한계점도 존재한다. 현재 교사 모델은 고정된 프리트레인 LLM이며, 교사와 학생 간의 지식 격차가 클 경우 질문이 오히려 혼란을 초래할 수 있다. 또한 후보 질문 수와 턴 예산 사이의 트레이드오프가 명시적으로 제시되지 않아, 실시간 시스템에 적용할 때 계산 비용이 급증할 가능성이 있다. 향후 연구에서는 교사 모델을 동적으로 조정하거나, 질문 생성 비용을 최소화하는 메타‑최적화 기법을 도입할 여지가 있다.

전반적으로 ODQS는 “질문을 통한 학습”이라는 새로운 패러다임을 제시하며, 특히 의료 상담, 교육 튜터링, 법률 자문 등 인간과 AI가 협업해야 하는 고위험 분야에서 실용적인 인터랙티브 추론 시스템 구축에 중요한 이정표가 될 것으로 기대된다.

📄 논문 본문 발췌 (Excerpt)

## [제목]: 질문을 통한 인터랙티브 추론 결과 기반 질문 최적화 전략

요약

전통적인 언어 모델의 작동 방식은 반응형이며, 프롬프트를 제공받고 그에 대한 응답을 생성하는 방식으로 작동합니다. 그러나 많은 실제 응용 분야, 예를 들어 교육 튜터링(Hu et al., 2023; Pan et al., 2024; Team et al., 2025; Kim et al., 2024)과 의료 지원(Li et al., 2024, 2025)은 모델이 불확실성을 식별하고 질문을 던지며 새로운 정보에 적응하도록 요구합니다. 이러한 상황에서 모델이 효과적으로 질문할 수 있도록 하는 것은 주요 과제입니다.

최근 연구는 상호작용 설정에서 에이전트가 명확한 질문을 하도록 유도하는 데 초점을 맞추었습니다(Aliannejadi et al., 2019; Press et al., 2023; Yao et al., 2023). 그러나 핵심적인 공백이 남아있습니다: 훈련 신호가 모델이 어떤 질문을 해야 하는지를 가르치는 데 부족합니다. 대부분의 방법은 선형적 또는 주관적 품질을 기반으로 한 휴리스틱, 보완, 또는 인간 판단에 의존합니다(Aliannejadi et al., 2019; Yao et al., 2023). 우리는 질질 품질이 유용성에 의해 판단되어야 한다고 주장합니다. 즉, 질문이 모델의 작업 수행 능력을 향상시키는지 여부에 따라 평가되어야 합니다.

본 연구는 추론 집약적인 도메인(수학 및 코드)에 초점을 맞추고 학생-교사 프로토콜을 통해 상호작용을 공식화합니다. 학생 모델 S는 문제를 시도하고, 강사 T로부터 지침을 받지만 최종 답변은 제공하지 않습니다. 학생은 질문 예산 내에서 질문을 할 수 있습니다. 각 교사 응답 후, 우리는 S가 원래 문제를 해결할 수 있는지 평가하고, ‘Pass@k’를 계산합니다. 이는 명확한 운영 정의를 제공하며, 질문이 유용성을 향상시키는지 여부에 따라 평가됩니다.

본 연구는 세 가지 핵심 과제를 해결합니다:

  1. 검색: 방대한 자연어 질문 공간을 탐색하는 것은 어려운 일입니다.
  2. 감독: 기존 데이터셋은 정보 수집 질문의 최적화를 위한 지표가 부족합니다.
  3. 효율성: 실제 배포 환경에서 상호작용은 비용이 많이 들기 때문에, 각 턴당 진보는 상당한 개선이 이루어져야 합니다.

이를 위해 두 가지 유형의 질문 최적화 전략을 제시합니다. 첫 번째 접근 방식인 ‘평가 기반 질문’은 학생이 문제를 시도한 후 교사의 피드백을 받아 추가 질문을 하는 상호작용 전략입니다. 두 번째 접근 방식인 ‘결과 기반 질문 최적화(ODQS)‘는 질문 요청을 학습 과제로 변환하여 모델이 질문하는 행동을 스스로 학습하도록 합니다.

실험 결과, ODQS와 평가 기반 상호작용은 모두 성능 향상에 기여하며, 특히 효율성 측면에서 우수한 결과를 보입니다. ODQS는 정적인 기준을 달성하기 위해 필요한 턴 수를 3개 줄여줍니다. 수학에서 ODQS는 Pass@5를 최대 54.7%까지 향상시키고, 코드에서는 22.9% 향상시킵니다. 또한, 최적의 평가 삽입 위치와 그 영향에 대한 분석을 제공합니다.

기여:

  • ODQS: DPO 기반 접근법으로 모델이 질문을 기반으로 학습하도록 합니다.
  • 평가 기반 상호작용 전략: 학생이 더 나은 질문을 할 수 있도록 교사로부터 피드백을 받습니다.
  • 효율성 향상: 모델이 효과적인 질문을 하는 데 필요한 턴 수를 줄입니다.

결론:

본 연구는 질문 최적화 전략을 통해 모델의 상호작용 학습 능력을 향상시키는 방법을 제시합니다. 실험 결과, 이러한 접근 방식은 정확도와 상호작용 효율성을 향상시키며, 모델이 더 나은 질문을 할 수 있도록 돕습니다. 향후 연구 방향으로는 다양한 도메인에서 이러한 전략의 일반화를 탐구하고, 인간과 AI 간의 효과적인 상호작용을 위한 추가적인 연구가 필요합니다.

📸 추가 이미지 갤러리

gsm8k__T-qwen72__S-mistral7__k5__rq1.png gsm8k__T-qwen72__S-mistral7__k5__rq2.png gsm8k__T-qwen72__S-mistral7__k5__rq3.png gsm8k__T-qwen72__S-qwen7__k5__assess_positions.png gsm8k__T-qwen72__S-qwen7__k5__rq1.png gsm8k__T-qwen72__S-qwen7__k5__rq2.png gsm8k__T-qwen72__S-qwen7__k5__rq3.png gsm8k__T-qwen72__S-qwen7__progress.png gsm8k__T-qwen72__S-qwen7_similarity_judge_improved_only_selfguided.png humaneval_opc__T-qwen72__S-mistral7__k5__rq1.png humaneval_opc__T-qwen72__S-mistral7__k5__rq2.png humaneval_opc__T-qwen72__S-mistral7__k5__rq3.png humaneval_opc__T-qwen72__S-qwen7__k5__assess_positions.png humaneval_opc__T-qwen72__S-qwen7__k5__rq1.png humaneval_opc__T-qwen72__S-qwen7__k5__rq2.png humaneval_opc__T-qwen72__S-qwen7__k5__rq3.png main_diagram.png qwen23_code_k5.png qwen23_math_k5.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키