RF 기반 백스캐터 인지 라디오 네트워크의 시간 스케줄링을 위한 딥 강화학습

본 논문은 RF‑파워드 백스캐터 인지 라디오 네트워크(RF‑PBCRN)에서 다중 2차 사용자가 기본 채널의 상태에 따라 백스캐터 통신 또는 에너지 수집을 수행하고, 채널이 유휴일 때는 저장된 에너지를 이용해 활성 RF 전송을 하는 시스템을 대상으로 한다. 이러한 시스템에서는 게이트웨이가 각 프레임 내에서 (1) 에너지 수집에 할당할 슬롯 수 µ, (2) 백스캐터 전송에 할당할 슬롯 수 αₙ, (3) 활성 전송에 할당할 슬롯 수 βₙ를 결정해야 하며, 이는 채널의 바쁨 시간 b(t), 각 2차 사용자의 데이터 큐 상태 qₙ와 에너지 저장량 cₙ에 따라 동적으로 변한다. 먼저 저자들은 문제를 마코프 결정 프로세스(MDP)로 모델링한다. 상태 공간 S는 채널 바쁨 슬롯 수 b와 N개의 2차 사용자의 (qₙ, cₙ) 쌍으로 구성되며, 행동 공간 A는 위에서 정의한 µ, αₙ, βₙ의 조합으로, 물리적 제약 µ+∑αₙ≤b와 µ+∑(αₙ+βₙ)≤F를 만족해야 한다. 보상 함수 R(s,a)는 백스캐터와 활성 전송 각각에서 성공적으로 전송된 패킷 수에 성공 확률을 곱한 값의 합으로 정의되어, 전체 네트워크 처리량을 직접 최적화한다. 전통적인 Q‑learning은 상태·행동 조합이 급증하면 테이블 기반 업데이트가 불가능해진다. 특히 N이 커질수록 상태 차원은 (Qₙ+1)·(Cₙ+1)·(F+1) 정도로 폭발한다. 이를 해결하기 위해 저자들은 Deep Q‑Network(DQN)를 도입하고, Q값의 과대평가 문제를 완화하기 위해 Double DQN(DDQN) 구조를 채택한다. DDQN은 온라인 네트워크와 타깃 네트워크를 별도로 유지하며, 타깃 네트워크의 파라미터는 일정 주기(L)마다 온라인 네트워크 파라미터로 복사한다. 학습은 ε‑greedy 정책으로 행동을 탐색하고, 경험 재플레이 버퍼에 저장된 (s,a,r,s′) 트랜지션을 미니배치로 샘플링해 손실 L=E

RF 기반 백스캐터 인지 라디오 네트워크의 시간 스케줄링을 위한 딥 강화학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기