소형 언어 모델로 창의적 플롯 생성

PlotTwist는 5 억 이하 활성 파라미터를 가진 소형 언어 모델(SLM)을 활용해, 프리미스 기반 플롯을 고품질로 생성하는 프레임워크이다. 핵심은 (1) 다섯 가지 서사 품질 차원(NQD)으로 플롯을 평가하는 Aspect Rating Reward Model, (2) Direct Preference Optimization(DPO)으로 정렬된 Mixture‑of‑Experts(MoE) 플롯 생성기, (3) 인간 판단을 모방하는 Agentic …

저자: Abhinav Thorat, Ravi Kolla, Jyotin Goel

소형 언어 모델로 창의적 플롯 생성
본 논문은 창의적 플롯 생성이라는 복합적인 과제를 소형 언어 모델(SLM)로 해결하기 위한 새로운 프레임워크인 PlotTwist를 제안한다. 기존 연구에서는 대규모 LLM이 높은 유창성을 보이지만, 장기적인 서사 구조와 캐릭터 일관성, 감정 흐름 등을 유지하는 데는 한계가 있다. 특히, 이러한 고품질 플롯을 얻기 위해서는 도메인 특화된 선호 정렬이 필수적이며, 이는 수백억 파라미터 규모의 모델에서는 비용이 과다하게 발생한다. PlotTwist는 이러한 문제를 “구조화된 외부 정렬 신호 + 모듈식 설계”라는 두 축으로 해결한다. 첫 번째 모듈은 Aspect Rating Reward Model이다. 저자들은 서사 품질을 다섯 가지 차원(NQDs)으로 정의했는데, 이는 캐릭터 전개, 톤 일관성, 페이싱, 서사 일관성, 감정 전환이다. 각 차원은 서사학 및 감정 내러티브 연구에 근거해 선정되었으며, 플롯의 구조적·시간적·정서적 특성을 포괄한다. 기존에 이러한 세부 평점을 제공하는 데이터셋이 없었기에, 저자들은 Positive‑Negative 프롬프트 전략을 사용해 여러 LLM을 앙상블하고, 긍정적 프롬프트와 부정적 프롬프트를 각각 고품질·저품질 플롯에 적용해 레이블을 자동 생성했다. 이렇게 만든 5,000개 이상의 플롯‑평점 쌍을 기반으로, Huber 손실을 이용해 회귀형 보상 모델을 미세조정하였다. 이 모델은 입력 플롯에 대해 연속적인 점수를 출력하며, 이후 플롯 생성기의 학습 목표로 활용된다. 두 번째 모듈은 MoE 기반 Plot Generator이다. 기본 모델은 Qwen‑3‑30B‑A3B의 3 억 활성 파라미터를 사용하지만, MoE 구조를 통해 전문가 라우팅을 적용해 효율적인 연산을 달성한다. 생성기는 Direct Preference Optimization(DPO)을 통해 보상 모델이 제공한 다차원 점수를 직접 최적화한다. DPO는 기존 RLHF와 달리 보상 모델을 별도로 학습하지 않고, 선호 쌍을 이진 분류 문제로 변환해 학습한다. 논문에서는 “고신뢰도 선호 쌍”을 선별해 학습에 사용함으로써 노이즈를 최소화하고, 각 NQD에 대한 균형 잡힌 정렬을 달성하였다. 또한, MoE 구조 덕분에 필요 시 전문가를 동적으로 활성화해 계산량을 조절할 수 있다. 세 번째 모듈은 Agentic Evaluation이다. 이는 훈련 파이프라인과 독립적으로 작동하며, 인간 평가자를 모방하도록 설계된 프롬프트와 상세 체크리스트를 사용해 플롯을 다섯 차원별로 평가한다. 이 모듈은 보상 모델이 과적합하거나 보상 해킹을 일으키는 위험을 방지하고, 외부 검증 수단으로서의 역할을 수행한다. 실험에서는 이 모듈이 IMDb 평점이 높은 ‘101 Greatest Screenplays of All Time’과 저평가된 ‘Golden Raspberry Awards’ 영화를 각각 높은·낮은 점수로 정확히 구분함을 보여준다. 실험 설계는 광범위했다. 베이스라인으로는 GPT‑4.1, Claude Sonnet 4, Gemini 2.0 Flash 등 200배 규모의 최첨단 모델, Llama‑3‑70B와 같은 대형 오픈 모델, 그리고 Agents’ Room, WizardLM‑Storytelling 등 기존 스토리 생성 시스템을 포함했다. 평가 지표는 다섯 NQD 평균 점수와 개별 차원 점수, 그리고 인간 평가와의 상관관계였다. PlotTwist는 전체 NQD 평균에서 일관되게 베이스라인을 앞섰으며, 특히 서사 일관성과 감정 전환에서 큰 격차를 보였다. 또한, “품질 적응형 생성” 특성을 확인했는데, 고품질 플롯에 대해서는 미세 조정만 수행하고, 저품질 플롯에 대해서는 구조적 재구성을 수행하도록 설계돼 있다. 이는 모델이 플롯 품질에 따라 개입 강도를 자동으로 조절한다는 의미이다. 추가 실험에서는 보상 모델과 에이전트 평가 모듈이 독립적으로 높은 신뢰성을 보였으며, 서로 다른 데이터 소스(예: 영화 플롯, 소설 시놉시스)에서도 일관된 성능을 유지했다. 또한, 파라미터 수가 5 억 이하인 SLM에서도 MoE와 DPO를 결합하면 대규모 LLM에 필적하는 서사 품질을 얻을 수 있음을 입증했다. 결론적으로, PlotTwist는 (1) 다차원 서사 평가를 위한 보상 모델, (2) MoE와 DPO를 결합한 효율적 플롯 생성기, (3) 독립적인 에이전트 평가라는 세 가지 모듈을 통해 소형 모델의 한계를 극복하고, 대규모 LLM에 필적하는 플롯 품질을 달성한다는 점에서 창의적 텍스트 생성 연구에 중요한 전환점을 제공한다. 향후 연구에서는 더 다양한 장르와 문화적 맥락을 포함한 데이터셋 구축, 그리고 인간‑인공지능 협업 워크플로우에 PlotTwist를 적용하는 방안을 탐색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기