인간‑로봇 협업을 위한 스타일‑조건부 확산 정책: 가독성·효율성 자동 전환

본 논문은 사전 학습된 확산 기반 로봇 정책에 가볍게 부착되는 장면 인코더와 스타일 예측기를 통해, 목표의 공간적 모호성 여부에 따라 가독성(legibility)과 효율성(predictability) 사이를 자동으로 전환하는 프레임워크인 Style‑Conditioned Diffusion Policy(SCDP)를 제안한다. 베이스 정책은 고정하고, 사후 학습 단계에서만 소규모 네트워크를 학습함으로써 재학습 비용을 최소화한다. 실험은 블록 도달 및…

저자: Adrien Jacquet Crétides, Mouad Abrini, Hamed Rahimi

인간‑로봇 협업을 위한 스타일‑조건부 확산 정책: 가독성·효율성 자동 전환
본 논문은 인간‑로봇 협업에서 로봇 움직임이 가독성(legibility)과 효율성(predictability) 사이에서 상충하는 문제를 해결하고자, 사전 학습된 확산 기반 정책(Diffusion Policy)에 외부 스타일 컨디션을 부착하는 프레임워크인 Style‑Conditioned Diffusion Policy(SCDP)를 제안한다. 1. **배경 및 동기** - 가독성은 로봇이 목표를 명확히 전달해 인간 관찰자의 안전과 신뢰를 높이는 데 필수적이지만, 이를 위해서는 종종 최단 경로를 벗어난 과장된 궤적이 필요하다. - 반면 효율성은 작업 수행 시간·에너지 최소화를 목표로 하며, 목표가 명확히 구분될 때는 가독성 없는 직선 경로가 바람직하다. - 기존 연구는 가독성 전용 정책을 설계하거나, 수동적인 가중치 조절을 통해 두 스타일을 전환했지만, 환경의 모호성에 따라 자동으로 전환하는 메커니즘은 부족했다. 2. **SCDP 구조** - **베이스 정책**: 기존 Diffusion Policy의 U‑Net 구조를 그대로 사용하고, 사전 학습된 가중치를 고정한다. - **장면 인코더**: 목표 g*와 방해 목표 g‑들의 좌표를 상대 벡터 r_i와 거리 j_i 로 변환해 5차원 벡터 ˜g_i 로 만든 뒤, 모든 목표를 하나의 행렬 x에 결합한다. 이를 MLP S에 입력해 컨텍스트 벡터 c∈ℝ^s 를 출력한다. 인코더는 자동 인코더 방식으로 재구성 손실을 최소화하며, 장면의 공간 관계를 압축한다. - **스타일 예측기**: 두 개의 MLP(가독성 전용, 예측성 전용)가 각각 c를 받아 γ,β 파라미터를 생성한다. 이 파라미터는 FiLM(Film Layer Modulation) 방식을 통해 U‑Net 중간 레이어 h에 적용돼, h←γ⊙h+β 로 스타일을 조절한다. - **모호성 감지 모듈**: 로봇 현재 상태 s_t와 목표 g* 사이의 중간점 e = s_t + κ(g*−s_t) (κ∈(0.5,1)) 를 중심으로, 양의 정부호 행렬 M 로 정의된 타원 E를 만든다. 방해 목표 g‑가 E 내부에 있으면 모호성으로 판단한다. 이 이진 판단 결과에 따라 가독성 예측기 또는 예측성 예측기를 선택한다. 3. **학습 절차** - **1단계**: 전체 시연 데이터(200개)를 사용해 베이스 Diffusion Policy를 학습한다. - **2단계**: 장면 인코더를 별도로 학습한다(자동 인코더 재구성 손실). - **3단계**: 스타일 전용 시연(각 환경당 30~40개)만을 이용해 가볍게 MLP(γ,β 생성기)만을 MSE 손실로 학습한다. 베이스 U‑Net 가중치는 고정된다. 4. **실험 설정** - **작업**: (a) Block Reach – 프랑카 에미카 판다 로봇이 두 블록 중 하나를 잡는 조작 과제, (b) Navigation – 터틀봇이 두 목표 지점 중 하나로 이동. - **시나리오**: 각 작업을 ‘Spatial Ambiguity’와 ‘No Spatial Ambiguity’ 두 환경으로 구분. - **평가 지표**: 가독성 점수(관찰자가 목표를 추론할 확률 기반), 효율성 점수(경로 길이·시간), 성공률, 그리고 스타일 전환 정확도. 5. **결과** - 모호한 환경에서는 SCDP가 기존 Diffusion Policy 대비 가독성 점수를 평균 18% 향상시켰으며, 경로 길이 증가는 5% 이하에 그쳐 효율성 손실을 최소화했다. - 비모호 환경에서는 가독성 예측기가 비활성화돼 베이스 정책과 동일한 효율성을 유지했다. - 모호성 감지 정확도는 92% 이상으로, 타원 기반 판단이 실시간 적용에 충분히 신뢰할 수 있음을 보여준다. - 전체 성공률은 97%로, 스타일 전환이 로봇 작업 성공에 부정적 영향을 주지 않음을 확인했다. 6. **논의 및 한계** - **장점**: (1) 베이스 정책 재학습이 필요 없어 기존 시스템에 손쉽게 적용 가능, (2) 경량 MLP만 추가해 연산 비용이 낮음, (3) 상황에 따라 자동으로 스타일을 전환해 인간‑로봇 상호작용 품질을 향상. - **제한점**: 현재는 2D 평면 기반 모호성 정의에 국한돼 3D 복합 환경에서는 추가적인 깊이·시점 고려가 필요하고, 타원 파라미터 κ와 M을 수동 설정한다는 점이 있다. 또한, 가독성·예측성 외에 힘·안전성 등 다른 스타일을 확장하려면 추가적인 컨디션 설계와 데이터가 요구된다. FiLM이 중간 레이어에만 적용되므로 전체 확산 과정에 걸친 미세한 스타일 변형에는 한계가 있을 수 있다. 7. **결론 및 향후 연구** - SCDP는 “모델을 재학습하지 않고도 상황에 맞는 행동 스타일을 동적으로 삽입한다”는 실용적 접근을 제시한다. 이는 로봇이 인간 의도와 환경 변화를 실시간으로 인식하고, 적절한 가독성·효율성 균형을 자동으로 맞출 수 있는 기반이 된다. - 향후 연구는 (a) 3D 공간 및 복합 센서(시각·깊이) 정보를 활용한 모호성 판단, (b) 다중 스타일(힘, 안전, 에너지) 통합 컨디션, (c) 실제 물리 로봇에서의 실시간 사용자 연구 등을 통해 인간‑로봇 협업의 전반적인 품질을 더욱 향상시키는 방향으로 진행될 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기