RIS 기반 스펙트럼 공유로 지역 고품질 무선망 효율 극대화

** 본 논문은 이동통신사업자(MNO) 생태계 내에서 재구성 가능한 지능형 표면(RIS)을 활용한 지역 고품질 무선망(LHQWN)용 스펙트럼 공유 프레임워크를 제안한다. 전용·재사용 서브채널을 동적으로 할당하고, 서브채널 배정·전송 전력·RIS 위상 변환을 공동 최적화함으로써 VSP(Vertical Service Provider)들의 총 유틸리티를 최대화한다. 복합 정수·비선형 문제를 마코프 결정 과정(MDP)으로 모델링하고, DDPG와 S…

저자: Hamid Reza Hashempour, Mina Khadem, Eduard A. Jorswieck

RIS 기반 스펙트럼 공유로 지역 고품질 무선망 효율 극대화
** 본 논문은 이동통신사업자(MNO)와 다중 수직 서비스 제공자(VSP) 간의 스펙트럼 공유를 위한 새로운 프레임워크를 제시한다. 기존 LSA/eLSA 모델은 전용 서브채널과 재사용 서브채널을 구분해 VSP에게 할당하지만, 재사용 서브채널 간 간섭으로 인해 QoS 보장이 어려운 것이 한계였다. 이를 보완하기 위해 논문은 재구성 가능한 지능형 표면(RIS)을 도입한다. RIS는 반사 요소들의 위상을 조절해 전파 경로를 재구성함으로써 원하는 사용자에게 신호 강도를 높이고, 동시에 간섭을 억제한다. 시스템 모델은 다음과 같다. MNO는 전체 대역폭을 여러 서브채널로 나누고, 각 서브채널을 전용(단일 VSP 전용) 또는 재사용(다중 VSP 동시 사용)으로 구분한다. VSP는 필요에 따라 전용·재사용 서브채널을 임대하고, RIS를 추가 비용을 지불하고 임대받아 자신의 서비스 영역에 배치한다. 각 VSP는 다수의 사용자에게 서비스를 제공하며, BS는 전송 전력을 조절한다. 최적화 변수는 (i) 서브채널 할당 행렬(이산), (ii) BS 전송 전력 벡터(연속), (iii) RIS 위상 벡터(연속)이다. 목적 함수는 VSP들의 총 유틸리티를 최대화한다. 여기서 유틸리티는 전송된 데이터량(수익)에서 스펙트럼 임대료와 RIS 임대료, 전력 소비 비용을 차감한 값으로 정의된다. 제약 조건은 (1) 각 서브채널은 전용이면 하나의 VSP에만 할당, 재사용이면 여러 VSP가 동시에 사용할 수 있음, (2) 각 사용자에 대해 최소 전송률 보장, (3) 각 VSP의 총 전력 한도, (4) RIS 위상은 0~2π 범위 내 이산(또는 연속) 값이어야 함을 포함한다. 이 문제는 혼합 정수·비선형 형태(MINLP)로, 전통적인 최적화 기법으로는 계산량이 급증하고 실시간 적용이 불가능하다. 따라서 저자는 이를 마코프 결정 과정(MDP)으로 변환한다. 상태(state)에는 현재 트래픽 요구량, 채널 상태(CSI), RIS 가용성, 이전 할당 정보가 포함된다. 행동(action)은 위 세 가지 변수의 조합이며, 보상(reward)은 즉시 유틸리티(수익‑비용)와 제약 위반 페널티를 합산한 형태이다. 두 가지 심층 강화학습(DRL) 알고리즘을 적용한다. 첫 번째는 Deep Deterministic Policy Gradient(DDPG)이며, 연속 행동을 직접 출력하는 액터‑크리틱 구조를 가진다. 두 번째는 Soft Actor‑Critic(SAC)으로, 최대 엔트로피 원칙을 도입해 정책의 탐색성을 강화하고, 두 개의 Q‑네트워크를 사용해 과대평가를 방지한다. 논문은 하이브리드 행동 공간을 처리하기 위해 액션 셰이핑 기법을 설계한다. 구체적으로, 연속 전력·위상 변수는 그대로 네트워크 출력으로 사용하고, 이산 서브채널 할당은 소프트맥스 확률분포로 변환한 뒤, 가장 높은 확률을 가진 할당을 선택한다. 또한, 비용·QoS 제약을 라그랑주 승수 형태로 보상에 가중치 부여해 학습 중 자연스럽게 제약을 만족하도록 유도한다. 시뮬레이션 환경은 4개의 VSP, 2개의 BS, 3개의 RIS, 8개의 서브채널(전용 4, 재사용 4)로 구성된다. 각 RIS는 64개의 반사 요소를 가지고, 채널은 거리 기반 경로 손실과 Rayleigh 페이딩을 포함한다. 트래픽 요구량은 시간에 따라 랜덤하게 변동한다. 성능 평가는 (i) 총 유틸리티, (ii) 수렴 속도, (iii) 제약 위반 비율, (iv) 최적 탐색(Exhaustive Discrete Search, EDS) 대비 근접도 등으로 측정한다. 결과는 다음과 같다. SAC는 약 200 에피소드 내에 안정적인 수렴을 보이며, 평균 보상이 급격히 상승한다. DDPG는 수렴에 더 많은 에피소드(≈500)와 큰 진동을 보이며, 최종 유틸리티가 SAC보다 낮다. 유틸리티 측면에서 SAC는 EDS의 96% 수준을 달성하고, DDPG는 약 88%에 머문다. 제약 위반률은 SAC가 거의 0%에 가깝게 유지되는 반면, DDPG는 소수의 위반 사례가 발생한다. 또한, RIS를 활용했을 때 재사용 서브채널의 간섭이 크게 감소해 스펙트럼 재사용 효율이 30% 이상 향상되는 것을 확인했다. 논문의 주요 기여는 네 가지로 정리된다. 1) RIS를 통합한 eLSA 기반 스펙트럼 공유 프레임워크를 설계하고, 비용·QoS를 포함한 다목적 유틸리티 모델을 제시하였다. 2) 복합 연속‑이산 자원 할당 문제를 MDP로 모델링하고, 하이브리드 행동 공간을 효과적으로 다루는 DRL 접근법을 개발하였다. 3) DDPG와 SAC 두 알고리즘을 구현·비교하여, 엔트로피 기반 SAC가 수렴 속도·안정성·성능 면에서 우수함을 입증하였다. 4) 시뮬레이션을 통해 RIS가 스펙트럼 재사용을 촉진하고, 전체 시스템 유틸리티를 크게 향상시킬 수 있음을 실증하였다. 향후 연구 방향으로는 (i) 다중 RIS 간 협업 최적화, (ii) 분산 학습을 통한 다중 MNO·VSP 간 협력, (iii) 실제 하드웨어 테스트베드 구축, (iv) 경제 모델링을 확대해 장기 임대 계약 및 시장 메커니즘을 포함한 정책 설계 등을 제시한다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기