가치 반복 네트워크: 계획 능력을 내재한 차별화된 강화학습 모델

VIN(Value Iteration Network)은 전통적인 가치 반복 알고리즘을 컨볼루션 신경망 형태로 근사화한 완전 미분 가능한 구조를 제안한다. 계획 모듈을 신경망에 삽입함으로써, 강화학습·모방학습 정책이 직접적인 계획 연산을 학습하고, 보이지 않는 새로운 환경에서도 높은 일반화 성능을 보인다.

저자: Aviv Tamar, Yi Wu, Garrett Thomas

가치 반복 네트워크: 계획 능력을 내재한 차별화된 강화학습 모델
본 논문은 강화학습 및 모방학습에서 정책이 장기적인 목표를 달성하기 위해서는 단순한 입력‑출력 매핑을 넘어선 ‘계획’ 능력이 필요하다는 점을 강조한다. 기존의 딥 CNN 기반 정책은 시각적 특징을 추출하고 이를 바로 행동 확률로 변환하는 반응형 구조에 머물러, 환경이 바뀌거나 새로운 목표가 주어졌을 때 일반화가 어려웠다. 이러한 한계를 극복하기 위해 저자들은 가치 반복(Value Iteration, VI) 알고리즘을 신경망 내부에 삽입하는 ‘Value Iteration Network(VIN)’를 제안한다. VIN은 크게 세 부분으로 구성된다. 첫 번째는 관측 φ(s) 로부터 보상 이미지 R̂ 와 전이 확률 텐서 P̂ 를 생성하는 함수 f_R , f_P 로, 이들은 모두 학습 가능한 파라미터를 가진 작은 CNN 혹은 MLP 형태이다. 두 번째는 VI 모듈이다. 여기서는 R̂ 와 이전 단계의 가치 함수 Vⁿ 를 컨볼루션 연산을 통해 Q‑값을 계산하고, 액션 차원에 대해 맥스 풀링을 수행해 Vⁿ⁺¹ 를 얻는다. 이 과정을 K번 반복함으로써 근사적인 최적 가치 함수 V̂ 를 만든다. 컨볼루션 커널은 할인율 γ 와 전이 확률을 내포하므로, 전통적인 VI와 수학적으로 동일한 연산을 수행한다. 세 번째는 ‘주의(attention)’ 메커니즘이다. 현재 상태 s 에서는 인접한 몇 개의 셀(또는 그래프 이웃)의 V̂ 값만이 행동 선택에 직접 영향을 미치므로, 해당 부분만을 추출해 피처 ψ(s) 로 만든다. 마지막으로 ψ(s) 와 원본 관측 φ(s) 를 결합해 완전 연결층 혹은 작은 CNN을 통과시켜 최종 행동 확률 π(a|s)를 출력한다. 이 구조는 전부 미분 가능하므로, 정책 그래디언트를 이용한 표준 RL 알고리즘(예: A3C, DQN)이나 모방학습 손실함수에 그대로 적용할 수 있다. 저자들은 여러 실험을 통해 VIN의 효용성을 입증한다. 첫 번째 실험은 격자형 맵에서 목표 지점까지 이동하는 경로 계획 문제이다. 동일한 네트워크 구조를 가진 일반 CNN 정책은 훈련에 사용된 맵에만 잘 작동했지만, VIN은 새로운 맵과 새로운 목표 위치에서도 높은 성공률을 유지했다. 두 번째 실험은 연속 제어 환경인 ‘MountainCar’와 ‘CartPole’ 변형에서, VIN이 관측 이미지와 목표 위치를 입력받아 내재된 계획을 수행함으로써 기존 정책보다 빠른 학습과 더 좋은 최종 성능을 보였다. 세 번째 실험은 자연어 기반 검색 과제인 ‘WebNav’에서, 질문을 텍스트로 받아 웹 페이지 그래프 상에서 목표 페이지를 찾는 작업에 VIN을 적용했으며, 여기서도 계획 모듈 덕분에 복잡한 탐색 전략을 학습하고 일반화하였다. 추가적으로 저자들은 VI 모듈을 계층적으로 쌓아 더 큰 스케일의 계획을 수행하거나, 그래프 형태의 상태 공간에도 적용 가능한 확장성을 논의한다. 전체적으로 VIN은 ‘학습된 모델 안에서 계획을 수행한다’는 새로운 접근을 제시하며, 모델‑프리 강화학습이 갖는 데이터 효율성 문제와 모델‑베이스 방법이 요구하는 정확한 시스템 식별 사이의 트레이드오프를 완화한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기