UIS‑다이거: 실세상 비인덱스 정보 탐색을 위한 종합 연구 에이전트 시스템

본 논문은 검색 엔진에 색인되지 않은 웹 콘텐츠(동적 페이지, 파일, 숨겨진 섹션 등)를 활용해야 하는 Unindexed Information Seeking (UIS) 문제를 정의하고, 110개의 전문가 검증 QA로 구성된 최초의 UIS 벤치마크 UIS‑QA를 제시한다. 기존 최첨단 에이전트가 GAIA·BrowseComp‑zh에서는 70%·45% 수준의 정확도를 보였지만 UIS‑QA에서는 24% 이하로 급락한다. 이를 극복하기 위해 다중 에이전…

저자: Chang Liu, Chuqiao Kuang, Tianyi Zhuang

UIS‑다이거: 실세상 비인덱스 정보 탐색을 위한 종합 연구 에이전트 시스템
본 논문은 최신 LLM 기반 정보 탐색 에이전트가 기존 벤치마크(GAIA, BrowseComp 등)에서 뛰어난 성과를 보이지만, 검색 엔진에 색인된 자료에만 의존한다는 근본적인 한계를 지적한다. 실제 웹에서는 중요한 정보가 동적 페이지, 숨겨진 섹션, 파일 다운로드 등 색인되지 않은 형태로 존재한다. 이를 “Unindexed Information Seeking (UIS)” 문제로 정의하고, UIS가 기존 평가 체계에서 간과되고 있음을 강조한다. **1. UIS 정의 및 이론적 모델** - IIS: 검색 엔진이 색인한 페이지와 스니펫을 의미한다. - UIS: 색인되지 않은 페이지, 동적 컨텐츠, 파일 등 검색 결과만으로는 접근 불가한 정보를 의미한다. - 실용적인 접근을 위해 ˜II(검색·크롤링으로 얻은 제한된 색인 정보)와 ˜UI(그 외 정보)로 구분하고, 질문 Q와 컨텍스트 C(˜II∪˜UI) → 정답 z, 여기서 |C(˜UI)|>0인 경우를 UIS 문제로 공식화한다. **2. UIS‑QA 벤치마크 구축** - 전문가 그룹이 실제 정부·기업·오픈소스 사이트를 깊게 탐색해 파일 다운로드·다중 클릭·옵션 선택 등을 수행하고, 해당 페이지·파일에서 직접 답을 추출할 수 있는 QA 쌍을 만든다. - 각 QA는 객관성, 권위성, 정적성, 검증 가능성, 접근성 5가지 원칙을 만족하도록 설계하였다. - 이후 3인 검증과 자동 검증(z.ai, DeepSeek‑R1) 과정을 거쳐 IIS에 해당하는 질문을 제거, 최종 110개의 고품질 UIS‑QA를 확보하였다. 84%는 중국어, 16%는 영어이며, 정책 발표, 기업 연차보고, 코드 레포지토리, 게임 등 다양한 도메인을 포괄한다. **3. 기존 벤치마크와의 차별점** - UIS‑QA는 실세상 공개 웹을 대상으로 하며, 시작점이 없고(에이전트가 자유롭게 검색·크롤링 시작) 색인되지 않은 정보에 의존하도록 설계되었다. - 최종 답변은 짧은 객관식 형태로 자동 채점이 가능하도록 규정하였다. 이는 기존 정보 탐색 데이터셋이 주로 검색·텍스트 추출에 초점을 맞춘 것과 차별된다. **4. UIS‑Digger 시스템 설계** - **멀티‑에이전트 구조**: Planner, WebSearcher, WebSurfer, FileReader 네 개의 전용 에이전트가 협업한다. - **Planner**: 질문을 서브태스크로 분해하고 전체 흐름을 조정한다. - **WebSearcher**: 전통적인 검색·크롤링을 수행하고, 필요 시 URL을 WebSurfer·FileReader에 전달한다. - **WebSurfer**: 듀얼‑모드(텍스트·시각) 브라우저를 사용해 클릭, 스크롤, 입력, 옵션 선택, 파일 다운로드 등 다양한 인터랙션을 수행한다. 텍스트와 시각 모드가 메모리를 공유해 상태 동기화 비용을 최소화한다. - **FileReader**: 다운로드된 PDF·Excel·CSV 등을 파싱해 구조화된 텍스트로 변환한다. **5. 모델 학습 전략** - **SFT (Supervised Fine‑Tuning)**: 인공적으로 생성한 UIS‑QA 쌍을 이용해 기본 탐색·추론 능력을 학습한다. - **RFT (Rejection‑Sampling Fine‑Tuning)**: 모델이 생성한 답변 중 오류가 높은 경우를 거부 샘플링으로 재학습시켜, “거부‑재시도” 루프를 통해 UIS 특화 능력을 강화한다. - 백본 LLM은 약 30B 파라미터 규모이며, 대형 모델(GPT‑4.1, O3) 대비 훨씬 가벼운 구조임에도 불구하고 위 두 단계만으로 UIS‑QA에서 27.27% 정확도를 달성한다. **6. 실험 결과 및 분석** - 기존 최첨단 에이전트는 GAIA(70.90%)·BrowseComp‑zh(46.70%)에서는 높은 정확도를 보였지만, UIS‑QA에서는 24.55% 이하로 급락한다. - UIS‑Digger는 동일 조건에서 27.27%를 기록, 가장 큰 성능 향상을 보였다. - 오류 분석 결과, 주요 실패 원인은 (1) 제한된 액션 스페이스(예: 파일 다운로드 미지원)와 (2) 기초 LLM의 추론 한계였다. - 듀얼‑모드 브라우징과 파일 파싱이 UIS 해결에 핵심적인 역할을 함을 실증하였다. **7. 의의 및 향후 연구** - UIS라는 새로운 문제 정의와 전용 벤치마크를 제공함으로써, 기존 에이전트 평가 체계의 blind spot을 드러냈다. - 멀티‑에이전트와 듀얼‑모드 브라우징 설계는 실세상 복잡한 웹 인터랙션을 다루는 데 효과적이며, 향후 더 큰 LLM, 액션 스페이스 확장, 자동 데이터 생성·검증 파이프라인 구축 등을 통해 성능을 더욱 끌어올릴 수 있다. - 궁극적으로는 색인되지 않은 정보를 능동적으로 탐색·활용하는 에이전트가 실제 업무·연구·일상에서 신뢰할 수 있는 지식 획득 도구가 되는 것이 목표이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기