ViviDoc 인간 에이전트 협업 인터랙티브 문서 생성
ViviDoc는 플래너, 스타일러, 실행기, 평가기 네 개의 LLM 기반 에이전트로 구성된 파이프라인을 통해 인터랙티브 문서를 자동으로 생성한다. 사용자는 문서 사양(DocSpec)·스타일 팔레트·채팅 기반 편집이라는 세 단계의 제어 포인트를 제공받아 내용·시각·코드 전 과정을 투명하게 조정할 수 있다. 101개의 실제 사례를 모은 ViviBench 벤치마크와 4차원 자동 평가 체계를 도입해 품질을 정량화했으며, 인간 평가와 사용자 연구에서 높…
저자: Yinghao Tang, Yupeng Xie, Yingchaojie Feng
본 논문은 인터랙티브 문서라는 새로운 디지털 매체의 제작 과정을 자동화하면서도 인간 저자의 의도를 충분히 반영할 수 있는 시스템 ‘ViviDoc’을 제안한다. 인터랙티브 문서는 슬라이더, 드롭다운, 직접 조작 등 다양한 UI 요소를 통해 독자가 복잡한 개념을 실험적으로 탐색하도록 설계된 웹 기반 콘텐츠이다. 기존에는 도메인 전문 지식과 웹 개발 능력을 동시에 갖춘 소수의 전문가만이 이러한 문서를 제작할 수 있었으며, 제작 비용과 시간 부담이 크게 작용했다. 최근 대형 언어 모델(LLM) 기반 에이전트가 텍스트·코드 자동 생성에 성공했지만, 인터랙티브 문서와 같이 복합적인 구조와 동작을 요구하는 작업에 그대로 적용하면 ‘제어 불가능성’과 ‘사용자 피드백 부재’라는 문제에 봉착한다.
이를 해결하기 위해 저자들은 (1) 문서 사양(DocSpec)·(2) 스타일 팔레트·(3) 채팅 기반 편집이라는 세 단계의 인간 제어 포인트를 설계하고, 이를 중심으로 플래너, 스타일러, 실행기, 평가기의 네 개 에이전트가 순차적으로 작동하는 파이프라인을 구축했다. 플래너는 주제 입력을 받아 SRTC(State, Render, Transition, Constraint) 형태의 인터랙션 사양과 텍스트 설명을 포함하는 지식 단위(Knowledge Unit) 시퀀스를 생성한다. 이때 사전 정의된 JSON 스키마를 사용해 구조적 오류를 방지한다. 스타일러는 생성된 DocSpec을 분석해 작성 스타일(톤, 용어 수준, 서술 구조)과 인터랙션 스타일(시각 복잡도, 애니메이션 강도, 색상 인코딩 등)의 옵션을 자동 제안한다. 사용자는 ‘Auto’, ‘Custom’, 혹은 제시된 옵션 중 선택해 최종 스타일 지시문을 만든다.
실행기는 두 단계로 문서를 구현한다. 첫 단계에서는 텍스트 설명과 작성 스타일 지시문을 바탕으로 HTML 텍스트 블록을 생성하고, 이전 섹션과의 일관성을 유지한다. 두 번째 단계에서는 SRTC 사양과 인터랙션 스타일 지시문을 이용해 HTML·CSS·JavaScript 코드를 자동 생성한다. 특히 ‘State’에 정의된 변수 범위·기본값, ‘Render’에 명시된 UI 위젯, ‘Transition’에 기술된 동작 로직, ‘Constraint’에 명시된 수학적 제약을 그대로 코드에 매핑함으로써 사용자가 사양만 수정하면 즉시 시각화에 반영된다.
평가 에이전트는 생성된 문서의 HTML 구조 검증, 인터랙션 기능 테스트, 코드 효율성 측정을 수행한다. 오류가 발견되면 해당 지식 단위만 재실행하도록 피드백을 제공한다.
인간‑에이전트 협업은 세 지점에서 이루어진다. 첫째, 플래너가 만든 DocSpec을 사용자가 직접 편집해 지식 단위 순서·내용·파라미터를 조정한다. 둘째, 스타일 팔레트를 통해 전반적인 문서·시각 스타일을 선택·수정한다. 셋째, 실행 결과에 대해 채팅 인터페이스로 자연어 명령을 입력해 세부 수정이 가능하다. 이러한 단계별 제어는 전통적인 LLM 블랙박스와 달리 투명성을 제공한다.
평가를 위해 저자들은 60개 이상의 웹사이트에서 101개의 실제 인터랙티브 문서를 수집해 ‘ViviBench’라는 벤치마크를 구축했다. 482개의 인터랙션 인스턴스를 8가지 유형(파라미터 탐색, 직접 조작, 검사, 자유형 구성, 스크롤 기반 서사, 공간 내비게이션, 상태 전환, 시간 제어)으로 분류하고, 자동 평가 프레임워크를 설계했다. 자동 평가는 규칙 기반(인터랙션 기능·효율성)과 LLM‑as‑Judge(콘텐츠 풍부도·인터랙션 품질) 두 축을 결합했으며, 인간 평가와의 상관계수 r > 0.84를 기록해 신뢰성을 입증했다.
실험 결과 ViviDoc는 기존 방법 대비 콘텐츠 풍부도와 인터랙션 품질 모두에서 최고 점수를 얻었으며, 12명의 사용자 연구에서는 사용 용이성(5.0/5), 제어 효과성(모두 >4.0/5), 전반적 만족도(4.58/5)를 달성했다.
결론적으로, 본 연구는 LLM 기반 멀티‑에이전트 시스템에 구조화된 중간 표현과 인간‑에이전트 협업 인터페이스를 결합함으로써, 복합적인 웹 인터랙션을 포함한 고품질 디지털 콘텐츠를 효율적으로 생산할 수 있음을 실증하였다. 향후 연구에서는 인터랙션 유형 확장, 실시간 협업 지원, 코드 최적화 자동화 등을 통해 교육, 저널리즘, 과학 커뮤니케이션 등 다양한 분야에 적용 가능성을 넓히는 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기