지연 인식 인간인루프 강화학습 기반 의미통신

본 논문은 의미통신(SemCom)이 제공하는 의미 수준의 전송 효율성을 유지하면서, 몰입형 및 안전‑중요 서비스에서 요구되는 엄격한 지연 보장을 동시에 만족시키는 프레임워크를 제안한다. 이를 위해 저자들은 인간‑인‑루프 강화학습(HITL‑RL)과 실시간 지연 제약을 결합한 ‘시간‑제한 인간‑인‑루프 강화학습(TC‑HITL‑RL)’ 시스템을 설계하였다. 시스템은 Open RAN 아키텍처를 기반으로, Near‑RT RIC에 HITL‑RL 에이전트를 배치하고, gNB와 UE 사이에 JSCC 기반 의미 인코더‑디코더 쌍을 두어 의미 정보를 전송한다. 인간 평가자는 재구성된 의미에 대한 피드백을 uplink를 통해 전송하며, 이 피드백은 기계적 지표와 결합되어 정규화된 선호 점수(˜U) 로 변환된다. RIC은 이러한 점수를 지수 가중 평균(¯U) 로 누적하고, 이를 강화학습 상태에 포함시킨다. 문제 정의는 CMDP(Constrained Markov Decision Process) 형태로 이루어진다. 상태 s_t는 의미 품질(q_t), 인간‑정렬 유틸리티(¯U_t), 남은 시간 여유(Δ_t), 정규화된 deadline 부채(δ_t), RIC 큐 백로그(Q_t), 채널 행렬(H_t), 그리고 현재 프레임에 할당된 미니슬롯 예산(T_avail,t) 등 7가지 요소로 구성된다. 행동 a_t는 의미 모델 업데이트 원시(u_t)와 UE 스케줄링 마스크(b_t)로 이루어진 복합 벡터이며, 즉시 실행 가능성 집합 A_feas(s_t) 를 통해 RIC 처리 시간과 개별 UE deadline을 동시에 만족하도록 제한한다. 전이 커널은 무선 채널 페이딩, 인간 피드백 융합, 그리고 지연 구성 요소(C_fb, C_RIC, C_tx, C_reconf) 를 포함한다. 보상 r(s_t,a_t)는 인간‑정렬된 장기 유틸리티(¯U)의 증가와 연산 비용(χ) 및 deadline 부채(δ) 감소를 가중합한 형태이며, 두 개의 비용 신호 c^(1)와 c^(2)는 각각 RIC 처리 시간과 deadline 초과량을 측정한다. 목표는 평균 보상을 최대화하면서, 장기 평균 비용이 사전 정의된 한계(d^(1), d^(2)) 를 초과하지 않도록 하는 것이다. 알고리즘 구현은 프라임‑듀얼 PPO(Constrained PPO)를 기반으로 한다. 라그랑주 승수 λ=

지연 인식 인간인루프 강화학습 기반 의미통신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기