노이즈 관측 하에서의 탐욕 정책 구조와 최적성

1. 연구 배경 및 목적 인코그니티브 라디오와 같은 기회주의적 스펙트럼 접근 시스템에서는 다수의 채널 중 하나를 선택해 센싱하고, 그 결과에 따라 전송 여부를 결정한다. 채널은 시간에 따라 Good↔Bad 상태를 전이하는 Gilbert‑Elliot 모델을 따르며, 이러한 전이는 독립적이고 동일한 확률(p_ij)로 정의된다. 실제 환경에서는 에너지 검출기 등으로 채널 상태를 판단할 때 허위경보(ε)와 놓침확률(δ)라는 오류가 발생한다. 이러한 불완전 관측 하에서 장기 평균 보상을 최대화하는 센싱 정책을 찾는 것이 본 논문의 핵심 과제이다. 2. 시스템 모델 및 수학적 정식화 - 채널 상태 S_n(t)∈{0,1} (0=Bad, 1=Good) - 전이 확률 p_11=Pr{1→1}, p_01=Pr{0→1}, p_10, p_00 등 - 센싱 오류: ε=Pr{decide Bad|Good}, δ=Pr{decide Good|Bad} - 전송 성공 시 보상 1, 그 외 0. 관측은 ACK(1)와 NAK(0) 형태로 받으며, 이는 센싱 결과와 실제 전송 성공 여부를 결합한다. 시스템의 완전 상태는 관측되지 않으므로, belief ω_i(t)=Pr{S_i(t)=1|history} 로 요약한다. belief 업데이트는 (1)식에 제시된 베이즈 규칙을 따르며, 여기서 Γ(x)=x p_11+(1−x) p_01 라는 연산자가 등장한다. 3. 최적 정책과 탐욕 정책 정의 전체 최적 정책 π*는 동적 계획법(DP)으로 정의된 Bellman 방정식(2)을 만족한다. 그러나 상태·행동 공간이 급격히 확대돼 실용적이지 않다. 탐욕 정책은 현재 belief만을 사용해 즉시 기대 보상 ω_a(t)(1−ε)를 최대화하는 채널 a를 선택한다(식 3). 이는 인덱스 정책이며 시간에 따라 변하지 않는다. 4. 탐욕 정책의 구조적 특성 (Theorem 1) 초기 belief가 전이 확률 구간

노이즈 관측 하에서의 탐욕 정책 구조와 최적성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기