힘을 이용한 이머시브 행동 이해 데이터셋 FEEL

FEEL은 손에 부착한 압전 센서와 메타 아리아 안경을 동기화하여 약 270시간, 300만 프레임 규모의 주방 작업 영상을 수집한 데이터셋이다. 45 % 이상의 프레임에 손‑물체 접촉이 포함되며, 힘 신호를 이용해 접촉 시점을 정확히 라벨링한다. 논문은 (1) 힘 기반 접촉 시점과 물체 영역을 동시에 예측하는 모델을 제시해 접촉 이해 성능을 최고 수준으로 끌어올렸고, (2) 힘 예측을 자기지도 사전학습 목표로 사용해 다양한 행동 인식 벤치마크에…

저자: Eadom Dessalene, Botao He, Michael Maynord

힘을 이용한 이머시브 행동 이해 데이터셋 FEEL
본 논문은 “Force‑Enhanced Egocentric Learning”(FEEL)이라는 새로운 데이터셋을 소개한다. FEEL은 사용자 손에 착용한 맞춤형 압전(piezoresistive) 장갑과 메타의 Project Aria 안경을 동기화하여, 주방 환경에서 자연스럽게 일어나는 물체 조작을 기록한다. 장갑에는 각 손가락 끝과 손바닥에 6개의 Flexiforce A301 센서가 부착돼 0‑45 N 범위의 힘을 실시간으로 측정한다. Arduino Nano와 3.3 V LiPo 배터리로 구동되며, 데이터는 1 kHz 수준의 고주파 IMU와 함께 1440×1440 RGB, 양쪽 측면 카메라, 7‑마이크 배열을 포함한 멀티모달 스트림과 동기화된다. 데이터 수집은 약 27시간(≈3 M 프레임) 동안 진행됐으며, 전체 프레임 중 45 % 이상이 손‑물체 접촉을 포함한다. 힘 신호를 기반으로 접촉 여부를 라벨링하는데, 상·하위 임계값을 설정해 ‘접촉’, ‘비접촉’, ‘불명확’ 세 구간으로 구분한다. 불명확 구간은 학습에 제외해 라벨 노이즈를 최소화한다. 결과적으로 1.35 M 프레임은 접촉 상태, 1.65 M 프레임은 비접촉 상태로 라벨링되며, 이 라벨은 공개된다. 시각적 라벨링을 보완하기 위해, 논문은 힘 기반 접촉 프레임에 대해 약 500 K 이미지에 객체 마스크 후보를 생성한다. 후보 마스크는 Segment Anything Model(SAM)에 개념 프롬프트(예: “컵”, “칼”)를 입력해 얻으며, optical flow(SEA‑RAFT)와 깊이 지도(MLDepthPro), 그리고 Aria의 카메라 외부 파라미터를 활용해 움직임과 손 위치를 정량화한다. 마스크별로 에피폴라 오류를 계산하고, 오류가 가장 큰 마스크를 ‘접촉 객체’ 후보로 선택한다. 이때 마스크가 3D 손 중심에서 일정 거리 이내에 있어야 한다는 추가 제약을 두어 물리적 근접성을 보장한다. 최종적으로 180 K 이미지에는 객체 마스크가, 나머지 320 K 이미지에는 이진 접촉 여부만 라벨링된다. 연구는 두 가지 주요 과제에 FEEL을 적용한다. 첫 번째는 ‘접촉 이해’이다. 여기서는 단일 RGB 이미지 입력에 대해 두 개의 출력 헤드를 학습한다. 첫 헤드는 각 손(좌·우)에 대해 접촉 여부를 이진 분류하고, 두 번째 헤드는 해당 손이 접촉하고 있는 물체의 픽셀 마스크를 예측한다. 학습은 힘 기반 라벨을 사용해 진행되며, 기존 비디오 기반 접촉 데이터셋(예: EgoHands, HOI4D 등) 대비 시간적 접촉 검출에서 최고 수준의 정확도(F1 점수)를 달성한다. 특히 시각적으로는 구분이 어려운 접촉·비접촉 전환을 힘 신호가 명확히 구분해 주어, 모델이 더 정확한 경계 학습이 가능해졌다. 두 번째 과제는 ‘행동 표현 학습’이다. 여기서는 비디오 백본(예: SlowFast, ViViT 등)에 힘 예측 헤드를 추가해 자기지도 사전학습을 수행한다. 입력 클립으로부터 각 손의 힘 시계열을 예측하도록 학습함으로써, 네트워크는 시각적 특징뿐 아니라 물리적 상호작용 구조를 내재화한다. 사전학습이 끝난 뒤 힘 예측 헤드를 제거하고, 백본만을 다양한 행동 인식 벤치마크에 전이한다. EPIC‑Kitchens, Something‑Something‑V2, Ego‑Exo4D, Meccano 등에서 기존 이미지‑텍스트 기반 사전학습 혹은 비디오‑전용 사전학습 대비 전반적으로 정확도가 향상되었으며, 특히 물체와 손의 물리적 상호작용이 중요한 동작(예: ‘그릇을 들어 올리기’, ‘칼로 자르기’)에서 큰 이득을 보였다. 논문의 주요 기여는 다음과 같다. (1) 세계 최초의 대규모 egocentric 힘‑비디오 데이터셋 공개, (2) 힘 기반 접촉 라벨링을 통해 1.35 M 프레임의 접촉/비접촉 라벨과 180 K 객체 마스크 제공, (3) 힘 예측을 자기지도 사전학습 목표로 사용해 다양한 행동 인식 태스크에 전이 성능 향상 입증, (4) 접촉 이해를 위한 시각‑힘 융합 모델을 제시해 기존 최고 성능 달성. 한계점으로는 데이터가 주방이라는 제한된 환경에 국한돼 있어 다른 작업 공간에서의 일반화가 검증되지 않았으며, 힘 센서가 손가락과 손바닥에만 부착돼 손목·팔 전체의 힘 전달을 포착하지 못한다는 점이 있다. 또한, 압전 센서는 온도·피부 접촉 등에 따라 드리프트와 노이즈가 발생할 수 있어 라벨링 정확도에 영향을 줄 가능성이 있다. 향후 연구에서는 멀티모달 촉각·힘‑모멘트 센서를 추가하고, 실내·실외 다양한 도메인으로 데이터 수집을 확대함으로써 현재의 제약을 보완할 수 있다. FEEL은 물리적 인과관계를 직접 측정한 최초의 대규모 egocentric 데이터셋으로, 힘을 활용한 자기지도 학습과 접촉 이해에 새로운 패러다임을 제시한다. 이는 로봇 조작, 인간‑컴퓨터 인터페이스, 행동 인식 등 물리‑시각 융합 연구에 중요한 기반이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기