동적 폐루프 확산 정책을 위한 행동 청크와 실시간 보정

DCDP는 기존 확산 기반 로봇 정책의 장기 행동 청크 생성 능력은 유지하면서, 슬라이딩 윈도우와 차분 특징을 이용한 경량 동적 인코더로 실시간 환경 변화를 감지한다. 교차‑주의와 비대칭 액션 인코더‑디코더를 결합해 매 타임스텝마다 행동 청크를 미세 조정함으로써 재학습 없이도 동적 상황에서 성공률을 19 % 향상시키고 계산량을 5 %만 추가한다. 모듈식 설계로 다양한 기존 확산 정책에 플러그‑인 가능하다.

저자: Pengyuan Wu, Pingrui Zhang, Zhigang Wang

동적 폐루프 확산 정책을 위한 행동 청크와 실시간 보정
1. 서론 최근 확산 기반 정책은 로봇 조작에서 높은 성공률을 기록했지만, 행동 청크를 한 번에 생성하고 실행하는 오픈‑루프 방식 때문에 급변하는 환경에 대한 즉각적인 대응이 어렵다. 저자들은 이러한 한계를 극복하기 위해 장기 계획 능력은 유지하면서도 매 타임스텝마다 환경 변화를 반영할 수 있는 폐루프 메커니즘을 도입한다. 2. 관련 연구 행동 청크를 이용한 행동 생성, 폐루프 제어를 위한 고주파 정책 삽입, 동적 물체 조작을 위한 모델 기반 제어 등 기존 연구들을 정리하고, 이들 방법이 갖는 계산량 증가, 행동 일관성 손실, 재학습 필요성 등의 문제점을 지적한다. 3. 방법론 3.1. 전체 구조 DCDP는 두 단계로 구성된다. Stage 1에서는 Fast Dynamic‑Aware Policy와 VAE 기반 액션 인코더‑디코더를 학습한다. Stage 2에서는 학습된 두 모듈을 결합해 실시간 교정을 수행한다. 3.2. Fast Dynamic‑Aware Policy - History Bank: 최근 M 프레임을 저장하고 슬라이딩 윈도우 방식으로 업데이트한다. - Spatial Feature Extraction: ResNet‑18을 사용해 각 프레임의 공간 특징 X_spatial을 추출한다. - Differential Feature: 인접 프레임 차분 ΔX에 학습 가능한 스케일 α를 곱해 D_t를 만든다. 이는 동적 변화를 강조한다. - Temporal Attention: Q, K, V 선형 변환을 통해 시간 축 전체에 대한 자기‑주의를 수행하고, Softmax‑정규화된 가중치로 각 시점의 중요도를 학습한다. - Cross‑Attention Fusion: 차분 특징 D_t를 Query로, Temporal Attention 결과 X_temporal을 Key‑Value로 사용해 두 정보를 융합한다. 최종 동적 특징 F_M은 (M, C′) 차원의 텐서로 출력된다. 3.3. 비대칭 액션 인코더‑디코더 - Encoder: 행동 청크 A_t:t+H‑1을 잠재 변수 z에 매핑한다. - Decoder: z와 동적 특징 F_M을 조건으로 받아 복원된 행동 청크 A′_t:t+H‑1을 생성한다. - 손실 함수: 복원 손실 L_rec과 KL 발산 L_KL을 결합해 디코더가 반드시 F_M을 활용하도록 유도한다. 3.4. 폐루프 결합 (Stage 2) 고정된 확산 정책 π_s는 기존과 동일하게 긴 H‑step 청크를 생성한다. 동시에 Fast Dynamic‑Aware Policy π_f가 매 타임스텝마다 최신 관측을 입력받아 F_M을 업데이트한다. Joint Policy π_c는 π_s의 잠재 z와 F_M을 결합해 교정된 청크 A′를 출력한다. 이 과정은 추론 단계에서만 수행되며, 기존 모델 파라미터를 변경하지 않는다. 4. 실험 4.1. 시뮬레이션 – Dynamic Push‑T 동적인 목표 물체가 움직이는 환경에서 기존 확산 정책 대비 성공률이 19 % 상승했으며, 평균 추론 시간은 5 %만 증가했다. 4.2. 실제 로봇 실험 움직이는 물체를 잡는 작업과 변동이 큰 테이블 위 물체 정렬 작업에서 DCDP는 재학습 없이도 안정적인 성공률을 유지했다. 4.3. Ablation Study - 차분 특징 없이 교차‑주의만 사용하면 성능이 크게 떨어진다. - Temporal Attention을 제거하면 동적 상황에서의 반응 속도가 감소한다. - 비대칭 디코더 대신 대칭 구조를 사용하면 KL 제약이 약해져 동적 특징 활용도가 낮아진다. 5. 논의 및 한계 - History Bank 크기 M과 청크 길이 H 사이의 트레이드오프가 존재한다. 큰 M은 더 풍부한 동적 정보 제공하지만 메모리와 연산량이 증가한다. - 현재 차분 특징은 1‑프레임 차이를 사용하므로 급격한 가속도 변화에 민감하지 않을 수 있다. 향후 고차 차분이나 옵티컬 플로우 기반 특징을 도입할 여지가 있다. - 플러그‑인 방식이므로 원본 확산 정책이 충분히 강건해야 하며, 매우 복잡한 동적 환경에서는 추가 학습이 필요할 가능성이 있다. 6. 결론 DCDP는 확산 기반 로봇 정책에 경량 동적 인코더와 비대칭 액션 디코더를 결합해, 재학습 없이도 동적 환경에 대한 실시간 폐루프 제어를 가능하게 한다. 장기 행동 일관성을 유지하면서도 빠른 반응성을 제공하는 이 접근법은 산업용 로봇, 서비스 로봇 등 급변하는 작업 환경에 적용될 수 있는 강력한 기반 기술이 될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기