다채널 기회주의 접근에서 탐욕적 센싱 정책의 최적성

본 논문은 동일한 이산‑시간 2상 마코프 채널들을 다수 보유한 사용자가 매 슬롯 하나의 채널만 센싱·접근할 때, 즉시 보상을 최대화하는 탐욕적(마이옵틱) 정책이 특정 전이 확률 조건 하에서 전체 보상(유한·무한 horizon 모두) 최적임을 증명한다. 양의 상관(p₁₁≥p₀₁)일 때는 채널 수에 관계없이 최적이며, 부정의 상관(p₁₁<p₀₁)에서는 채널이 2·3개일 때만 최적이고 4개 이상에서는 반례가 존재한다.

저자: Sah, H.A. Ahmad, Mingyan Liu

본 논문은 다중 채널을 보유한 사용자가 매 시간 슬롯에 하나의 채널만 센싱·접근할 수 있는 상황을 모델링한다. 각 채널은 독립적인 2‑state(‘좋음’/‘나쁨’) 마코프 체인으로, 전이 확률 p₁₁, p₀₁, p₁₀, p₀₀을 갖는다. 사용자는 센싱 결과가 ‘좋음’이면 1의 보상을 얻고, ‘나쁨’이면 보상이 없으며, 목표는 유한 혹은 무한 horizon에서 기대 보상을 최대화하는 정책을 찾는 것이다. 관측이 제한적이므로 시스템은 부분관측 마코프 결정 과정(POMDP)으로 표현된다. 각 채널에 대한 베일 ω_i(t)=Pr

다채널 기회주의 접근에서 탐욕적 센싱 정책의 최적성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기