활동 인식을 위한 계층형 구조: 딥 강화학습 기반 이미지 분류

본 논문은 로봇이 부분적으로만 관찰할 수 있는 환경에서 이미지 분류를 수행하도록 설계된 3계층(메타‑플래너, 액션‑플래너, 분류기) 아키텍처를 제안한다. 각 계층은 딥 강화학습과 정책 그래디언트 기법으로 학습되며, 목표 생성·행동 선택·분류 예측을 순차적으로 수행한다. MNIST 실험을 통해 목표와 행동의 중간 단계가 해석 가능함을 보였다.

저자: Hossein K. Mousavi, Guangyi Liu, Weihang Yuan

활동 인식을 위한 계층형 구조: 딥 강화학습 기반 이미지 분류
본 논문은 로봇 에이전트가 환경을 부분적으로만 관찰할 수 있는 상황에서 이미지 분류 문제를 해결하기 위한 새로운 계획·인식 메커니즘을 제안한다. 이를 위해 세 개의 계층으로 구성된 구조를 설계했으며, 각각 메타‑플래너(Goal Planner), 액션‑플래너(Action Planner), 그리고 이미지 분류기(Classifier) 역할을 수행한다. 1. **문제 정의 및 배경** - 기존 연구에서는 목표‑기반 계획을 위해 hDQN과 같은 2계층 구조를 사용했으며, 메타‑플래너가 목표를, 액션‑플래너가 목표 달성을 위한 로컬 행동을 선택한다. 그러나 이러한 접근은 목표를 반드시 달성해야 한다는 강제적 제약을 갖는다. - 본 연구는 로봇이 부분적으로만 이미지를 관찰할 수 있고, 목표에 정확히 도달하지 않아도 충분히 정보를 수집할 수 있다는 점을 고려한다. 따라서 목표를 “방향” 수준으로 완화하고, 목표 달성 여부와 무관하게 보상을 설계한다. 2. **계층형 아키텍처 설계** - **Goal Planner**: 입력은 이전 에피소드까지 관찰된 이미지 y(e‑1), 로봇 위치 마스크 l(e‑1), 방문 이력 마스크 h(e‑1), 그리고 이전 목표 마스크 g_l(e‑1)이다. 이들을 채널 차원에서 concat하고 ResNet‑스타일 컨볼루션 네트워크에 통과시켜 n×n 크기의 목표 확률 지도 π_g를 출력한다. 소프트맥스 후 categorical 분포에서 목표 좌표 g(e)를 샘플링한다. 목표 마스크 g_l(e)는 선택된 목표 위치에 0값을, 나머지에 1값을 부여해 다음 단계에 피드백한다. - **Action Planner**: 현재 위치 p(e,t)와 목표 g(e)를 이용해 수평·수직 이동 중 하나를 선택한다. 입력 u_a는 현재까지 탐색된 이미지 y(e,t), 위치 마스크 l(e,t), 방문 이력 h(e,t), 목표 마스크 g_l(e)를 포함한다. 컨볼루션 → 글로벌 평균 풀링 → 소프트맥스 흐름을 통해 2차원 확률 벡터 π_a를 얻고, 이를 통해 행동 a(e,t)를 샘플링한다. 목표와 동일한 축에 이미 도달했을 경우 해당 축의 행동은 생략한다. - **Classifier**: 마지막 에피소드(E‑1)와 마지막 타임스텝(T‑1)에서 누적된 관찰 이미지 y_f를 입력으로 사용한다. 다중 채널 컨볼루션 → 글로벌 평균 풀링 → 소프트맥스 과정을 통해 클래스 확률 π_c를 산출한다. 보상은 교차 엔트로피 손실 r = –CrossEntropy(π_c, π_lc) 형태이며, 여기서 π_lc는 정답 라벨의 원‑핫 벡터이다. 3. **학습 알고리즘** - 전체 파라미터 Θ = {θ_1, θ_2, θ_3}를 하나의 기대 보상 J(Θ)=E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기