시각 모델 기반 강화학습에서 개체 추상화의 힘

본 연구는 복잡한 물리적 작업을 학습할 때 장면을 전역적으로 모델링하는 대신, 개별 개체와 그들의 국소적 상호작용으로 모델링하는 '개체 추상화'가 훈련 중 보지 못한 새로운 조합적 상황으로의 일반화에 큰 이점을 준다는 가설을 검증합니다. 연구팀은 감독 없이 시각 관찰로부터 개체 표현을 획득하고, 이를 예측 및 계획에 사용하는 최초의 완전 확률론적 개체 중심 동적 잠재 변수 프레임워크인 OP3를 제시합니다. OP3는 각 개체 표현을 동일한 국소 …

저자: Rishi Veerapaneni, John D. Co-Reyes, Michael Chang

시각 모델 기반 강화학습에서 개체 추상화의 힘
"Entity Abstraction in Visual Model-Based Reinforcement Learning" 논문은 물리적 세계의 복잡성을 모델링할 때, 장면을 하나의 전체로 보는 대신 구성 요소 개체와 그들 간의 국소적 상호작용으로 분해하여 모델링하는 접근법의 유용성을 탐구합니다. 인간이 물리 법칙을 개별 객체에 동일하게 적용하여 다양한 구조물을 창조할 수 있는 것처럼, 학습 에이전트도 객체와 그 상호작용에 대한 동일한 기본 모델을 재사용함으로써 훈련 중 접하지 못한 조합적 작업 공간으로 일반화할 수 있을 것이라는 가설을 세웁니다. 이를 검증하기 위해 논문은 OP3(Object-centric Perception, Prediction, and Planning) 프레임워크를 제안합니다. OP3는 완전히 확률론적이며 개체 중심적인 동적 잠재 변수 모델로, 감독 없이 원시 시각 관찰로부터 개체 표현을 학습하고, 이를 미래 예측과 계획에 활용합니다. 핵심 메커니즘은 '개체 추상화'로, 각 개체 표현이 동일한 국소 함수에 의해 대칭적으로 처리되도록 강제합니다. 이는 `map(f, H_1:K)` 연산으로 구현되며, 개체 중심 함수 `f`가 모든 개체 변수 `H_k`에 브로드캐스트됩니다. 주요 기술적 도전 과제는 이 추상 개체 변수를 실제 환경의 객체에 접지시키는 것이었습니다. 저자들은 이를 변수 바인딩 문제로 간주하고, POMDP 프레임워크 내에서 잠재 상태 추론 문제로 재구성했습니다. 개발된 상호작용 추론 알고리즘은 시간적 연속성(객체의 점진적 변화)과 상호작용 피드백(에이전트 행동의 효과)을 활용하여 변분 추론을 수행하며, 개체 변수의 사후 분포를 추정합니다. 모델은 관찰 분포(G), 역학 분포(D), 인식 분포(Q)를 정의하고, 이들의 매개변수를 증거 하한(ELBO)을 최대화하는 방식으로 학습합니다. 실험은 블록 쌓기 도메인에서 진행되었습니다. OP3는 블록이 떨어지는 동영상을 예측하는 단순한 훈련만 받은 후, 테스트 시점에서 다양한 블록 타워를 구성하는 다단계 작업을 해결해야 했습니다. 결과적으로 OP3는 객체 정체성에 대한 감독 정보를 가정한 오라클 모델보다 우수한 성능을 보였으며, 개체 추상화를 적용하지 않은 최신 비디오 예측 모델(SFV)에 비해 2~3배 높은 작업 정확도를 기록했습니다. 이는 훈련 데이터보다 많은 수의 블록이나 새로운 공간 배치로의 강력한 일반화 능력을 입증합니다. 논문은 OP3를 Transporter, COBRA, C-SWMs 등 관련 최신 모델과 비교하며, 대칭적 처리, 순환 구조, 완전한 확률론적 형식화를 통한 조합적 일반화 및 접지 정제 능력이 OP3의 차별점이라고 설명합니다. 결론적으로, 개체 추상화는 시각 모델 기반 강화학습 에이전트가 물리적 세계의 구성적 구조를 포착하고, 이를 통해 광범위한 새로운 작업으로 확장할 수 있는 강력한 귀납적 편향을 제공함을 시사합니다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기