놀라움 기반 행동 원시 단위 자동 발견 및 목표 지향 활용

본 연구는 인간의 행동이 작은 원시 단위(behavioral primitives)들의 연속으로 구성된다는 가설을 바탕으로, 로봇이 스스로 탐색하고 경험을 통해 이러한 원시 단위와 전이 구조를 자동으로 학습하는 새로운 아키텍처인 SUBMODES(SURPRISE‑based Behavioral MODularization into Event‑predictive Structures)를 제안한다. 아키텍처는 크게 세 부분으로 나뉜다. 첫 번째는 초기 탐색을 담당하는 자기 조직화 신경 제어기이다. 여기서는 차동 외부 가소성(DEP) 메커니즘을 이용해 로봇이 센서‑모터 피드백을 실시간으로 조정하면서 다양한 움직임 attractor를 탐색한다. DEP는 작은 교란에 민감하게 반응해 현재 attractor를 떠나 새로운 attractor로 전이하도록 유도함으로써, 인간이 무의식적으로 움직임을 시도하는 과정과 유사한 자발적 행동 다양성을 생성한다. 두 번째는 행동 모드별 전방 예측 모델이다. 각 모드(원시 단위)는 현재 센서‑모터 상태를 입력받아 다음 시점의 상태와 필요한 모터 명령을 예측한다. 모델은 온라인으로 지속적으로 업데이트되며, 예측 오차가 일정 수준 이하이면 현재 모드가 유지된다. 그러나 급격한 오차 상승이 감지되면 ‘놀라움(surprise)’ 신호가 발생한다. 이 신호는 행동 전이의 순간을 나타내며, 시스템은 기존 모델을 종료하고 새로운 모델을 초기화하거나, 이전에 학습된 모델 중 가장 적합한 것으로 전환한다. 세 번째는 전이 모델이다. 전이 순간에 전이 전후의 센서‑모터 상태와 전이 조건을 학습하여, 이후 목표 지향 계획 단계에서 “어떤 원시 단위를 언제, 어떤 조건에서 실행해야 목표에 도달할 수 있는가”를 판단하는 근거를 제공한다. 전이 모델은 조건부 확률적 인코딩을 사용해 전이 가능성을 추정하고, 전방 모델과 결합해 미래 상태를 시뮬레이션한다. 학습이 완료된 후, SUBMODES는 계층적 모델 기반 계획에 활용된다. 고수준 목표(예: 물체를 특정 위치에 놓기)는 전이 모델을 통해 가능한 원시 단위 시퀀스를 후보로 생성하고, 각 원시 단위의 전방 모델을 사용해 시뮬레이션된 센서 상태를 평가한다. 비용 함수(목표와의 거리, 에너지 소비, 충돌 위험 등)를 최소화하는 시퀀스가 선택되어 실행된다. 이 과정은 전통적인 모델‑프리 강화학습에 비해 탐색 공간을 크게 축소하고, 계획 속도를 크게 향상시킨다. 실험에서는 자유도 7인 팔 로봇과 4족 로봇 두 종류에 SUBMODES를 적용하였다. 두 시스템 모두 수천 번의 자발적 움직임을 통해 10~15개의 의미 있는 행동 원시 단위를 자동으로 추출했으며, 전이 모델은 복잡한 환경 변화(예: 장애물 회피, 물체 잡기)에서도 안정적으로 작동했다. 학습 후에는 목표 위치 도달, 물체 운반, 특정 자세 유지 등 다양한 과제를 기존 모델‑프리 강화학습 대비 2~3배 빠른 수렴 속도로 해결하였다. 특히, 전이 감지를 위한 놀라움 신호는 높은 노이즈 환경에서도 강인하게 동작했으며, 전이 모델은 새로운 상황에 대한 일반화 능력을 보여주었다. 본 논문의 주요 기여는 다음과 같다. (1) 외부 보상 없이도 탐색을 촉진하는 DEP 기반 제어기 설계, (2) 예측 오차를 이용한 온라인 이벤트 세분화와 자동 모델 생성 메커니즘, (3) 학습된 원시‑전이 구조를 활용한 효율적인 계층적 모델 기반 계획 프레임워크 제공이다. 특히 ‘놀라움’이라는 신경학적 개념을 로봇 제어에 직접 매핑함으로써, 인간 두뇌가 사건을 인식하고 행동을 재구성하는 방식과 유사한 자율 학습 파이프라인을 구현했다는 점에서 학제간 의미가 크다. 향후 연구에서는 더 복잡한 다중 에이전트 상호작용, 언어와의 연계, 그리고 실제 물리 로봇에 대한 장기 실험을 통해 SUBMODES의 확장성을 검증할 계획이다.

놀라움 기반 행동 원시 단위 자동 발견 및 목표 지향 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기