의도 인식 기반 장문 과학 보고서 생성 향상
본 논문은 과학 논문 작성 시 저자들의 숨은 의도를 태그 형태로 명시하고, 이를 LLM에 통합함으로써 장문 질문‑답변(Attributed Long‑Form QA) 시스템의 인용 정확도와 가독성을 크게 개선한다. 대형 모델에서는 2.9점, 소형 모델에서는 12.3점의 절대 성능 향상을 달성했으며, 인용 의도와 단락 의도가 모델의 추론 과정과 텍스트 구조에 미치는 영향을 정량·정성 분석한다.
저자: Xinran Zhao, Aakanksha Naik, Jay DeYoung
**1. 연구 배경 및 동기**
최근 대형 언어 모델(LLM)이 방대한 학술 텍스트를 학습했음에도 불구하고, 인간 저자들이 논문을 작성할 때 수행하는 고수준 ‘의도’를 데이터에 반영하지 못한다는 문제가 제기된다. 저자들은 각 문단·문장이 특정 목적(배경 제시, 동기 부여, 문제 해결 등)을 가지고 쓰지만, 이러한 의도는 최종 텍스트에 숨겨져 있어 모델이 학습할 수 없는 정보이다. 특히 장문 과학 보고서 생성(Attributed Long‑Form QA)에서는 인용 선택과 문단 구성의 정확성이 신뢰성·가독성에 직접적인 영향을 미친다. 따라서 저자 의도를 명시적으로 모델에 제공하면, 모델이 더 체계적이고 투명한 보고서를 생성할 수 있을 것으로 기대된다.
**2. 의도‑인식 프레임워크 설계**
논문은 두 종류의 의도를 정의한다.
- **단락 의도(Paragraph Intent, PIT)**: Exposition, Definition, Argumentation, Compare‑Contrast, Cause‑Effect, Problem‑Solution, Evaluation, Narration 등 12가지로, 각 단락이 수행하는 기능을 나타낸다.
- **인용 의도(Citation Intent, CIT)**: Background, Motivation, Uses, Extension, Comparison/Contrast, Future 등 6가지로, 특정 인용이 문장에 삽입되는 이유를 설명한다.
이들 의도는 `…` 혹은 `…` 태그 안에 의도 타입과 짧은 ‘rationale’를 함께 적어 인라인 형태로 삽입한다. 예를 들어, “CIT‑Motivation ” 뒤에 “이 연구는 새로운 데이터 수집 방법을 제안한다”와 같은 설명이 따라온다.
**3. 추론 단계 적용**
프롬프트에 “보고서를 의도 태그와 함께 출력하라”는 지시를 추가해, 모델이 텍스트를 생성하면서 동시에 의도 라벨을 삽입하도록 만든다. 이는 기존 RAG(Retrieval‑Augmented Generation) 파이프라인을 그대로 유지하면서, 의도‑인식을 ‘테스트‑타임 스케일링’ 형태로 적용한다. 모델은 문단을 시작하기 전 PIT 태그를, 인용 직후 CIT 태그를 삽입함으로써, 각 생성 단계에서 어떤 목적을 달성하려는지 스스로 계획한다.
**4. 학습 단계 적용**
대형 교사 모델(Gemini‑2.5‑pro 등)을 이용해 의도‑태그가 포함된 합성 데이터를 만든 뒤, 이를 소형 모델에 SFT한다. 세 가지 변형을 실험한다.
- **Intent‑Implicit SFT**: 태그와 라셔널을 제거하고 학습, 의도 정보는 교사 모델이 데이터 생성 시 간접적으로 반영.
- **Intent‑Explicit SFT**: 태그와 라셔널을 그대로 유지, 모델이 직접 의도를 학습하도록 함.
- **Intent‑Multiview SFT**: 의도 종류별(단락, 인용, 무의도) 데이터를 4배 확대해 학습 부담을 분산, 각 서브태스크에 특화된 학습이 가능하도록 설계.
**5. 실험 설정 및 평가**
세 개의 최신 장문 보고서 생성 벤치마크(Bragg et al., 2025; Patel et al., 2025; Yifei et al., 2025)를 사용했으며, 평가 지표는 다음과 같다.
- **텍스트 품질**: ROUGE‑L, BLEU, BERTScore.
- **인용 품질**: Citation‑Precision, Citation‑Recall, Citation‑F1.
- **인간 평가**: 가독성, 투명성, 전반적 만족도(5‑점 Likert).
**6. 주요 결과**
- 대형 모델에서는 평균 +2.9점(절대) 향상, 소형 모델에서는 +12.3점 향상을 기록.
- 인용 관련 메트릭에서 대형 모델은 +3.7점, 소형 모델은 +18.7점의 큰 개선을 보였다.
- Intent‑Explicit SFT가 가장 높은 성능을 보였으며, Intent‑Multiview SFT는 학습 효율성을 높여 작은 모델에서도 큰 폭의 개선을 가능하게 함.
- 인간 평가에서는 의도 태그가 포함된 출력이 ‘투명성’(+0.8)과 ‘읽기 쉬움’(+0.9) 점수에서 유의미하게 우수했다.
**7. 분석 및 논의**
- **의도 태그의 효과**: 모델이 문단 구조와 인용 선택을 사전에 계획하도록 유도해, 텍스트 흐름이 더 논리적이고 인용이 목적에 맞게 배치된다.
- **소형 모델에 대한 이점**: 의도‑인식 데이터가 강력한 교사 모델의 ‘지식’를 압축해 전달함으로써, 파라미터가 적은 모델도 대형 모델 수준의 성능에 근접한다.
- **한계**: 태그 삽입으로 인한 토큰 비용 증가, 태그가 과도하게 노출될 경우 자연스러운 언어 흐름이 저해될 가능성, 현재 의도 사전이 과학 분야에 특화돼 있어 다른 도메인으로의 직접 적용이 어려움.
**8. 향후 연구 방향**
- **자동 의도 라벨링**: 인간 라벨링 비용을 줄이기 위한 반자동 혹은 완전 자동 의도 추출 모델 개발.
- **다중 도메인 확장**: 의도 사전을 의료, 법률, 엔지니어링 등 다양한 분야에 맞게 재구성.
- **태그‑없는 후처리**: 생성 후 의도 정보를 메타데이터로 추출하고, 최종 텍스트에서는 태그를 제거해 자연스러운 출력과 의도‑인식의 장점을 동시에 확보하는 방법 탐색.
**9. 결론**
본 논문은 과학 장문 보고서 생성에 ‘의도 인식’이라는 새로운 차원을 도입함으로써, 모델이 인간 저자의 사고 과정을 모방하고, 인용 사용과 문단 구성을 보다 체계적으로 수행하도록 만든다. 대형·소형 모델 모두에서 의미 있는 성능 향상을 입증했으며, 인간 사용자에게도 가독성과 투명성을 크게 개선한다. 이는 향후 LLM 기반 과학 서치·리포팅 시스템이 보다 신뢰할 수 있는 ‘인용‑지원’ 텍스트를 제공하는 데 중요한 발판이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기