OrigamiBench 평면 종이 접기 인공지능 평가 환경

OrigamiBench는 시각·언어 모델이 종이를 접어 목표 형태를 만들도록 요구하는 인터랙티브 벤치마크이다. 모델은 현재 접힌 상태와 목표 이미지를 보고 새로운 접선을 JSON 형태로 제시하고, 환경은 물리·기하학적 타당성을 검증한다. 실험 결과 최신 대형 VLM도 단일 접기 인과관계 추론에서는 한계가 드러났으며, 다단계 계획 능력은 크게 부족함을 보였다.

저자: Naaisha Agarwal, Yihan Wu, Yichang Jian

본 논문은 인공지능이 물리적 세계에서 계획·행동·창조 능력을 갖추기 위해서는 단순한 패턴 인식을 넘어 물리적 인과 메커니즘과 제약을 이해해야 한다는 전제에서 출발한다. 이러한 능력을 평가하기 위한 벤치마크로 기존의 시각 질문응답이나 순수 프로그래밍 문제와 달리, 시각·언어·물리·계획을 동시에 요구하는 오리가미(종이접기) 도메인을 선택한다. **데이터셋**은 “Flat‑Folder” 프로젝트에서 제공하는 366개의 .fold 파일을 활용한다. 각 파일은 정점 좌표, 엣지 연결, 접선 종류(산·골짜기), 면 정의를 포함한 완전한 기하학적 정보를 담고 있다. 데이터는 의미 카테고리(동물, 식물, 기하 등)와 난이도(Easy, Medium, Hard) 두 축으로 정렬돼, 모델이 다양한 의미와 복잡도에서 일반화 능력을 평가할 수 있다. 시각적 검증을 위해 .fold 파일을 SVG·PNG 이미지로 변환하는 파이프라인도 제공한다. **인터랙티브 환경**은 CreasePattern 객체를 내부 상태로 유지한다. 매 단계 모델은 현재 접힌 상태 이미지, 목표 이미지, 현재 접힌 패턴 이미지, 그리고 이전 행동의 타당성 피드백을 포함한 멀티모달 프롬프트를 받는다. 모델은 `{"action":"add_crease","edge_vertices":

OrigamiBench 평면 종이 접기 인공지능 평가 환경

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기