딥 성공자 표현을 통한 강화학습 혁신

본 논문은 강화학습(RL)에서 가치 함수를 효율적으로 근사하기 위한 새로운 프레임워크인 Deep Successor Reinforcement Learning(DSR)을 제안한다. 기존의 모델‑프리(RL 에이전트가 직접 Q‑값을 학습)와 모델‑베이스(RL 에이전트가 전이와 보상 모델을 학습 후 플래닝) 접근법은 각각 계산 효율성과 유연성 측면에서 장단점이 있다. 성공자 표현(Successor Representation, SR)은 이 두 접근법의 중간 형태로, 상태‑액션 쌍에 대한 미래 상태 점유도를 학습하고 이를 즉시 보상과 결합해 가치 함수를 계산한다. SR은 특히 원거리 보상 변화에 빠르게 적응할 수 있다는 이점을 갖지만, 기존 연구는 주로 테이블 기반 혹은 선형 함수 근사에 국한돼 고차원 관측(예: 이미지)에서는 적용이 어려웠다. DSR은 이러한 한계를 극복하고 SR을 딥 뉴럴 네트워크와 결합한다. 전체 아키텍처는 네 부분으로 구성된다. 첫 번째는 원시 픽셀 입력을 CNN 기반 피처 인코더 fθ 로 변환해 D‑차원 특징 φs 를 추출한다. 두 번째는 성공자 브랜치 uα 로, 입력 특징과 액션을 받아 액션별 성공자 맵 msa≈uα(φs,a) 를 출력한다. 세 번째는 디코더(자동인코더) g̃θ 로, φs 를 다시 이미지로 복원해 재구성 손실 La 를 최소화한다. 네 번째는 선형 보상 예측기 w 로, R(s)≈φs·w 를 학습한다. 학습 목표는 세 개의 손실을 합한 총 손실 Lt=Lm+Lr+La 를 최소화하는 것이다. Lm 은 성공자 브랜치의 Bellman 잔차를 최소화하며, 현재 w 에 의해 결정된 최적 행동 a′ 를 사용해 목표값 φs+γ uα_prev(φs′,a′)와 현재 uα(φs,a) 의 차이를 제곱한다. Lr 은 즉시 보상 예측 오차 (R(s)−φs·w)² 를, La 는 이미지 재구성 오차 (g̃θ(φs)−s)² 를 각각 최소화한다. 학습 과정에서는 경험 재플레이 메모리 D 에 저장된 전이( s,a,R(s′),s′ )를 무작위로 샘플링하고, α 와 (θ,w,θ̃) 를 교대로 업데이트한다. 특히 α 는 이전 파라미터 α_prev 를 타깃 네트워크처럼 일정 주기마다 고정해 두어 Q‑학습의 불안정성을 완화한다. DSR의 핵심 아이디어는 가치 함수를 Qπ(s,a)≈msa·w 라는 내적 형태로 분해함으로써 보상 변화에 대한 적응을 가중치 w 만 업데이트하면 되게 만든다. 실험에서는 두 가지 도메인, 2‑D MazeBase와 3‑D ViZDoom을 사용했다. 두 환경 모두 원시 픽셀을 입력으로 사용했으며, 동일한 네트워크 구조와 하이퍼파라미터(학습률 2×10⁻⁴, 할인율 0.99, 탐색 ε 1→0.1)로 학습했다. 첫 번째 실험에서는 목표 지점에 도달하는 정책을 학습해 DQN과 비교했다. MazeBase에서는 평균 보상이 100 k 스텝에 걸쳐 DQN과 거의 동일한 수렴 곡선을 보였으며, Doom에서는 180 k 스텝 동안 DQN과 비슷한 성능을 유지했다. 두 번째 실험에서는 학습이 수렴한 뒤 목표 보상 값을 1→3으로 바꾸어 원거리 보상 변화에 대한 민감도를 평가했다. DSR은 w 만 재학습하면 즉시 새로운 가치 함수를 반영했으며, DQN은 전체 Q‑네트워크를 재학습해야 하는 비효율을 보였다. 이는 SR 기반 가치 분해가 보상 구조 변화에 대한 빠른 적응을 가능하게 함을 실증한다. 세 번째 실험에서는 성공자 맵을 이용해 서브골을 자동 추출했다. 무작위 정책으로 수집한 성공자 벡터 집합 T 에 대해 라디얼 베이스 함수 기반 친밀도 행렬 W 를 구성하고, 정규화 컷(Normalized Cut) 방법을 적용해 최소 컷을 구했다. 컷의 양끝에 해당하는 상태들은 환경의 병목(예: 방 사이의 문, 물길)으로, 서브골 후보가 된다. 이러한 서브골을 옵션 정책에 활용하면 탐색 효율이 크게 향상될 가능성이 있다. 논문의 주요 기여는 다음과 같다. (1) SR을 딥 뉴럴 네트워크와 결합해 고차원 관측에서도 성공자 맵을 학습하는 DSR 프레임워크 제안, (2) 보상 예측기와 자동인코더를 통한 다중 목적 손실 설계로 특징 φs 가 보상과 상태 구분을 동시에 학습하도록 함, (3) 보상 구조 변화에 대한 빠른 적응성을 실험적으로 입증, (4) 무작위 정책 기반 성공자 맵을 활용한 서브골 자동 추출 방법 제시. 한계점으로는 현재 액션 공간이 이산적이며, 성공자 브랜치의 안정성을 위해 타깃 네트워크와 같은 추가 기법이 필요하다는 점, 그리고 대규모 연속 제어 환경에 대한 적용이 아직 검증되지 않았다는 점을 들 수 있다. 향후 연구에서는 연속 액션, 다중 목표, 메타‑학습과 결합한 보상 재구성, 그리고 옵션 학습과의 통합 등을 탐색할 여지가 있다.

딥 성공자 표현을 통한 강화학습 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기