플로우코렉트: 로봇 조작을 위한 효율적인 인터랙티브 흐름 정책 보정

플로우코렉트는 사전 학습된 흐름‑매칭 시각‑운동 정책을 그대로 유지하면서, 인간이 VR 인터페이스로 제공하는 짧은 상대적 교정 신호만으로 실시간에 정책을 국소적으로 수정한다. 소수의 교정 롤아웃만으로도 기존 실패 사례의 성공률을 80% 이상 회복시키면서, 기존에 잘 동작하던 상황은 그대로 유지한다.

저자: Edgar Welte, Yitian Shi, Rosa Wolf

플로우코렉트: 로봇 조작을 위한 효율적인 인터랙티브 흐름 정책 보정
**1. 연구 배경 및 동기** 최근 대규모 모방학습과 생성 모델(특히 diffusion·flow 기반)으로 로봇 조작 정책이 멀티모달 행동을 학습하는 데 큰 진전을 보였다. 그러나 실제 배포 시에는 훈련 데이터와 다른 OOD 상황이 빈번히 발생해 정책이 급격히 실패한다. 기존의 파라미터‑효율적인 파인튜닝은 충분한 교정 데이터와 비교적 안정된 목표 분포를 전제로 하지만, 실제 현장에서는 ‘근접 실패(near‑miss)’와 같은 좁은 상태 공간만을 교정해야 하는 경우가 많다. 이러한 상황에서 전체 정책을 재학습하면 파라미터 간섭으로 기존에 잘 동작하던 행동이 손상될 위험이 있다. **2. 핵심 아이디어: FlowCorrect** FlowCorrect는 (i) 베이스 흐름‑매칭 정책을 고정하고, (ii) 경량 LoRA 어댑터와 게이팅 모듈을 추가해 정책의 흐름 벡터 필드에 국소적인 편향을 학습한다는 설계 철학을 갖는다. 인간 교정은 ‘상대적 nudges’ 형태로 제공되며, 이는 베이스 행동에 대한 작은 변위(b_t)로 표현된다. 교정 신호는 고주파(≈15 Hz)로 로봇 제어 루프에 적용돼, 사용자는 실시간에 가까운 피드백을 제공한다. **3. 시스템 아키텍처** - **베이스 정책**: ManiFlow의 DiTX‑Transformer 기반 흐름‑매칭 모델(시각 인코더 z_θ, 벡터 필드 f_θ). - **FlowCorrect 모듈**: LoRA 어댑터(Δθ)와 게이팅 네트워크 g_ψ를 DiTX‑Transformer의 MLP 헤드에 삽입. 어댑터는 f_θ에 추가 속도 v_Δθ를 제공해 전체 속도 v* = f_θ + v_Δθ 로 수정한다. - **교정 인터페이스**: VR 컨트롤러 버튼을 눌러 현재 포즈 p_ref를 저장하고, 버튼을 누른 동안 현재 포즈 p_t와의 차이 Δp_t를 계산. Δp_t는 스케일 γ, 시간 상수 τ, 제어 간격 dt 로 부드럽게 필터링·클리핑돼 b_t 로 변환된다. 교정이 끝나면 Decaying Relative Correction(DRC)으로 보정 효과가 점차 사라진다. **4. 학습 목표 및 손실** 교정이 적용된 타임스텝 T_corr에서는 어댑터가 a_corr와 일치하도록 L_corr = ‖a_corr – a_adapt‖² 를 최소화한다. 비교정 구간에서는 베이스 정책과의 KL‑다이버전스 혹은 L2 거리 L_base = ‖a_adapt – a_base‖² 를 최소화해 전역 드리프트를 방지한다. 전체 손실은 두 손실의 가중합이며, 교정 데이터는 매우 소량(수십 개)이다. **5. 실험 설정** - **플랫폼**: 7‑DOF 로봇 팔 + 평면 작업대. - **작업**: (1) 픽‑앤‑플레이스, (2) 물컵에 물 붓기, (3) 컵을 세우기, (4) 블록 삽입. - **베이스 정책**: 2000개의 인간 텔레오퍼레이션 시연으로 사전 학습. - **교정 예산**: 각 작업당 평균 5~10개의 교정 롤아웃(각 롤아웃당 1~2초의 교정). - **비교 대상**: (a) 전체 파라미터 파인튜닝, (b) DAgger‑style 절대 교정, (c) 무교정 베이스 정책. **6. 결과** - **성공률 향상**: 베이스 정책이 30% 이하 성공률을 보이던 작업에서도 교정 후 평균 85% 성공률 달성. - **성능 보존**: 기존에 95% 이상 성공하던 시나리오에서는 교정 후 94~96% 수준 유지, 성능 저하 <1%. - **학습 효율**: LoRA 어댑터 파라미터 수 ≈ 10k, 학습 시간 < 2분, GPU 메모리 사용량 0.5 GB. 전체 파인튜닝 대비 10배 이상 빠름. - **인간 부담**: VR 인터페이스를 통한 교정 평균 2.3 초, 절대 교정 대비 70% 적은 작업량. **7. 논의 및 한계** - **국소성 vs 전역성**: LoRA 기반 국소 편향은 근접 실패에 효과적이지만, 광범위한 OOD 상황(예: 전혀 새로운 물체)에는 한계가 있다. - **교정 신호 품질**: 현재는 인간이 직접 VR 컨트롤러로 제공하지만, 자동 오류 감지·보정 신호 생성(예: 시뮬레이션 기반)과 결합하면 완전 자동화에 가까워질 수 있다. - **다중 로봇·협업**: 현재는 단일 로봇에 국한되었으며, 다중 로봇 협업 시 교정 충돌 관리가 필요하다. **8. 결론** FlowCorrect는 흐름‑매칭 기반 생성 정책에 경량 로컬 어댑터를 삽입하고, 인간이 제공하는 상대적 교정 신호만으로 배포 단계에서 실시간 정책 보정을 가능하게 한다. 소수의 교정 데이터만으로도 기존 실패 사례를 크게 회복시키면서, 기존에 잘 동작하던 행동은 거의 손상되지 않는다. 이는 로봇 시스템이 현장 환경에서 지속적으로 학습·적응할 수 있는 실용적인 길을 제시한다. 향후 연구에서는 자동 교정 신호 추출, 복합 접촉 작업, 그리고 다중 로봇 시나리오에의 확장을 기대한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기