실시간 최적 엣지 노드 탐색을 위한 연속형 최적 팔 식별

본 논문은 실시간 상태 업데이트가 요구되는 다양한 응용(자율주행, 산업 제어, 헬스케어 등)에서 데이터 신선도를 나타내는 Age of Information(AoI) 지표를 최소화하기 위해, 공유된 모바일 엣지 컴퓨팅(MEC) 인프라의 불확실하고 시간에 따라 변동하는 혼잡 상태를 고려한 최적 엣지 노드 탐색 문제를 다룬다. 기존 연구는 주로 AoI 최소화를 위한 스케줄링·자원 할당을 전이 확률이 알려진 모델에 기반해 설계했으며, 이러한 접근은 실제 네트워크에서 내부 로드가 관측 불가능하고 지속적으로 변한다는 현실을 반영하지 못한다. 이에 저자들은 각 엣지 노드를 독립적인 ‘팔’로 보는 Restless Multi‑Armed Bandit(RMAB) 모델을 채택한다. 각 팔은 유한 상태 집합 S를 갖는 마르코프 체인으로 동작하며, 전이 확률 P_a(s'|s)는 사전에 알 수 없는 파라미터 θ_a에 의해 결정된다. 상태 X_{a,i}는 직접 관측되지 않고, 업데이트 패킷이 처리된 후 나타나는 서비스 지연 Y_{a,i}=f(X_{a,i})만이 관측된다. 이를 Hidden Markov Model(HMM) 형태로 모델링함으로써, 사용자는 관측값만으로 내부 혼잡 상태를 추정해야 한다. 문제 정의는 “고정 신뢰도(fixed‑confidence) 하에 평균 AoI를 최소화하는 최적 팔을 식별한다”는 베스트 암 아이덴티피케이션(BAI) 문제이다. 평균 AoI는 서비스 지연 Y_i의 제곱항을 포함하는 Q(Y_i,Y_{i+1})=½Y_i^2+Y_iY_{i+1} 형태의 비용을 누적한 뒤, 평균 서비스 시간으로 정규화한 비율로 표현된다. 이 비율은 분수 형태의 목적함수이므로 직접 최적화가 어려워, 저자들은 이를 “평균 비용” 문제로 변환하고, 각 팔에 대한 추정값과 신뢰구간을 동시에 관리하는 Age‑aware LUCB 알고리즘을 제안한다. Age‑aware LUCB는 전통적인 LUCB의 상·하한 계산에 마르코프 체인의 믹싱 특성을 반영한다. 구체적으로, 각 팔에 대해 현재까지 수집된 관측값을 이용해 전이 행렬의 추정치를 업데이트하고, 이를 기반으로 stationary distribution μ_{θ_a}와 기대 서비스 시간 E

실시간 최적 엣지 노드 탐색을 위한 연속형 최적 팔 식별

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기