멀티이미지 숨은 목표 탐색 벤치마크 AMIGO

본 논문은 에이전시 비전‑언어 모델(VLM)이 단순한 이미지 캡션이나 한 번의 질문‑답변을 넘어, 장기적인 대화와 행동 계획을 수행할 수 있는지를 평가하기 위한 새로운 벤치마크인 AMIGO(Agentic Multi‑Image Grounding Oracle Benchmark)를 제안한다. 기존의 다중 이미지·다중 턴 평가는 주로 모델이 주어진 컨텍스트 내에서 정답을 도출하는 능력에 초점을 맞추었지만, 실제 서비스에서는 사용자가 비밀스럽게 선택한 목표를 찾기 위해 모델이 스스로 정보를 탐색하고, 제약을 추적하며, 불확실성을 관리해야 한다. 이를 반영하기 위해 AMIGO는 다음과 같은 핵심 설계를 갖는다. 1. **숨은 목표 식별 시나리오**: 사용자는 6~40개의 시각적으로 유사한 드레스 이미지로 구성된 갤러리를 업로드하고, 그 중 하나를 비밀 목표로 지정한다. 모델은 “End of uploading” 신호를 받은 뒤, 속성‑중심의 Yes/No/Unsure 질문을 순차적으로 제시한다. 2. **엄격한 프로토콜**: 질문은 반드시 관찰 가능한 속성(목선 형태, 지퍼 유무, 주름 레이어 등)만을 다루어야 하며, 색상·패턴·소매·길이 등 명백히 구분이 쉬운 속성은 금지된다. 질문당 하나의 이진 질문만 허용되고, 규칙 위반 시 오라클은 “Skip” 응답을 반환한다. 모델은 후보 집합이 하나가 될 때까지 추측을 금하고, 충분히 확신이 서면 최종 답을 “My guess of your favorite dress: #” 형태로 출력한다. 3. **오라클 노이즈와 검증**: 실험에서는 가끔 오라클이 일관되지 않은 피드백을 제공하도록 설계해, 모델이 모순을 감지하고 추가 검증 질문을 생성하는지를 평가한다. 이는 실제 사용자와의 대화에서 발생할 수 있는 불완전하거나 모호한 피드백에 대한 강인성을 측정한다. 4. **데이터 구축 파이프라인**: 저자는 패션 카탈로그에서 4,880장의 드레스 이미지를 수집하고, 속성 메타데이터를 다중 LLM을 활용해 정규화·통합하였다. 이후 각 속성 값에 대해 여러 이진 질문 템플릿을 자동 생성하고, Qwen3‑VL‑235B‑FP8, Intern‑S1, GLM‑4.5V 등 오픈소스 VLM을 앙상블하여 이미지‑속성 라벨을 자동으로 부착한다. 인간 감수 과정을 통해 라벨 품질을 검증하고, 오류를 교정하였다. 5. **유사도 기반 후보 풀 생성**: 각 목표 이미지 A에 대해 Attr(A) = {속성 값}을 정의하고, Sim(A,B)=|Attr(A)∩Attr(B)|/|Attr(A)| 로 비대칭 유사도를 계산한다. 유사도 임계값 τ와 갤러리 크기를 조절해 난이도를 제어한다. 높은 τ(예: 0.8)는 매우 유사한 방해 이미지를 선택해 모델의 미세 차별 능력을 극대화하고, 낮은 τ는 다양한 방해 이미지를 포함해 탐색 공간을 확대한다. 최종적으로 587개의 에피소드가 τ=0.3~0.8 구간에서 생성되었다. 6. **평가 지표**: - **결과 지표**: 최종 식별 성공률, 평균 질문 턴 수, Skip 비율 등. - **상호작용 품질**: 질문 중복도, 제약 충돌 탐지, 불확실성 상황에서 추가 질문 여부 등 트래젝터리 수준 진단. - **노이즈 내성**: 오라클이 의도적으로 모순된 피드백을 제공했을 때 모델이 이를 감지하고 검증 질문을 생성하는 비율. 7. **실험 및 초기 결과**: 현재 진행 중인 실험에서는 Qwen3‑VL‑235B‑Instruct‑FP8이 다른 모델보다 높은 성능을 보였으며, 질문 템플릿을 패러프레이즈하고 다중 해상도 이미지 증강을 적용하면 미세 디테일 인식이 향상된다는 관찰이 있다. 구체적인 수치는 아직 공개되지 않았으며, 향후 논문 업데이트를 통해 제공될 예정이다. 8. **기여와 활용 가능성**: AMIGO는 (1) 장기 계획·정보 탐색·제약 관리라는 에이전시 VLM의 핵심 능력을 정량화, (2) 명확히 정의된 행동·관찰·보상 구조를 제공해 강화학습 기반 정책 학습 데이터로 활용 가능, (3) 오라클 노이즈와 검증 메커니즘을 통해 실제 사용자와의 불완전한 상호작용을 시뮬레이션한다는 점에서 의미가 크다. 또한, 공개된 데이터와 평가 스크립트는 연구 커뮤니티가 새로운 멀티모달 에이전트 모델을 비교·개선하는 데 유용한 벤치마크가 될 것이다. 요약하면, AMIGO는 다중 이미지 갤러리에서 숨은 목표를 찾기 위한 장기 대화형 평가 프레임워크로, 질문 선택 전략, 제약 추적, 미세 시각 구분, 그리고 노이즈에 대한 강인성을 동시에 측정한다. 이는 앞으로 에이전시 VLM이 실제 서비스에서 요구되는 복합적인 인지·행동 능력을 개발하고 검증하는 데 중요한 기준점이 될 것으로 기대된다.

멀티이미지 숨은 목표 탐색 벤치마크 AMIGO

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기