지연 인식 인간인루프 강화학습 기반 의미통신

본 논문은 인간 피드백을 활용한 의미통신 시스템에 실시간 지연 제약을 결합한 CMDP 모델을 제시하고, 프라임‑듀얼 구조의 PPO 알고리즘에 액션 실드와 지연 보상 설계를 추가한 TC‑HITL‑RL 프레임워크를 개발한다. 시뮬레이션 결과, 제안 방법은 사용자별 deadline을 지속적으로 만족시키면서 의미적 보상을 기존 PPO 수준으로 유지하고, 처리 지연 변동성을 크게 감소시킨다.

저자: Peizheng Li, Xinyi Lin, Adnan Aijaz

본 논문은 의미통신(SemCom)이 제공하는 의미 수준의 전송 효율성을 유지하면서, 몰입형 및 안전‑중요 서비스에서 요구되는 엄격한 지연 보장을 동시에 만족시키는 프레임워크를 제안한다. 이를 위해 저자들은 인간‑인‑루프 강화학습(HITL‑RL)과 실시간 지연 제약을 결합한 ‘시간‑제한 인간‑인‑루프 강화학습(TC‑HITL‑RL)’ 시스템을 설계하였다. 시스템은 Open RAN 아키텍처를 기반으로, Near‑RT RIC에 HITL‑RL 에이전트를 배치하고, gNB와 UE 사이에 JSCC 기반 의미 인코더‑디코더 쌍을 두어 의미 정보를 전송한다. 인간 평가자는 재구성된 의미에 대한 피드백을 uplink를 통해 전송하며, 이 피드백은 기계적 지표와 결합되어 정규화된 선호 점수(˜U) 로 변환된다. RIC은 이러한 점수를 지수 가중 평균(¯U) 로 누적하고, 이를 강화학습 상태에 포함시킨다. 문제 정의는 CMDP(Constrained Markov Decision Process) 형태로 이루어진다. 상태 s_t는 의미 품질(q_t), 인간‑정렬 유틸리티(¯U_t), 남은 시간 여유(Δ_t), 정규화된 deadline 부채(δ_t), RIC 큐 백로그(Q_t), 채널 행렬(H_t), 그리고 현재 프레임에 할당된 미니슬롯 예산(T_avail,t) 등 7가지 요소로 구성된다. 행동 a_t는 의미 모델 업데이트 원시(u_t)와 UE 스케줄링 마스크(b_t)로 이루어진 복합 벡터이며, 즉시 실행 가능성 집합 A_feas(s_t) 를 통해 RIC 처리 시간과 개별 UE deadline을 동시에 만족하도록 제한한다. 전이 커널은 무선 채널 페이딩, 인간 피드백 융합, 그리고 지연 구성 요소(C_fb, C_RIC, C_tx, C_reconf) 를 포함한다. 보상 r(s_t,a_t)는 인간‑정렬된 장기 유틸리티(¯U)의 증가와 연산 비용(χ) 및 deadline 부채(δ) 감소를 가중합한 형태이며, 두 개의 비용 신호 c^(1)와 c^(2)는 각각 RIC 처리 시간과 deadline 초과량을 측정한다. 목표는 평균 보상을 최대화하면서, 장기 평균 비용이 사전 정의된 한계(d^(1), d^(2)) 를 초과하지 않도록 하는 것이다. 알고리즘 구현은 프라임‑듀얼 PPO(Constrained PPO)를 기반으로 한다. 라그랑주 승수 λ=

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기