모델프리 LQR을 위한 그래디언트 방법의 수렴성 및 샘플 복잡도 분석

본 논문은 연속시간 무한 Horizon 선형 이차 레귤레이터(LQR) 문제를 모델프리 환경에서 해결하기 위한 그래디언트 기반 방법들의 수렴 특성과 샘플 복잡도를 체계적으로 분석한다. 전통적인 LQR은 시스템 행렬 A와 B가 알려진 경우 리카티 방정식을 풀어 최적 피드백 게인 K*를 구할 수 있지만, 실제 많은 응용에서는 이러한 모델이 존재하지 않는다. 따라서 저자들은 직접 피드백 게인 K를 변수로 하는 비용 함수 f(K)를 정의하고, 이를 비볼록 최적화 문제로 취급한다. 첫 번째 주요 결과는 안정적인 초기 K∈S_K(즉, A−BK가 Hurwitz인 경우)에서 연속적인 그래디언트 흐름 ˙K=−∇f(K) 가 지수적으로 수렴한다는 것이다. 이를 위해 저자들은 LQR 비용 차이 Δf(K)=f(K)−f(K*)를 Lyapunov 함수로 사용하고, Polyak‑Łojasiewicz(PL) 부등식을 증명한다. PL 부등식은 비볼록 함수라도 전역적인 수렴률 ρ>0을 보장하는데, 여기서는 ρ와 상수 b가 초기 K와 시스템 파라미터(Q,R,Ω 등)에 의존한다는 점을 명시한다. 두 번째로, 전진 오일러 스키마를 적용한 이산화 그래디언트 하강(GD) 알고리즘 K_{k+1}=K_k−α∇f(K_k) 에 대해, 스텝 사이즈 α를 충분히 작게 잡으면 동일한 지수 수렴률 γ를 유지한다. 이때 α는 시스템 고유값, 비용 행렬, 초기 K의 스펙트럼 반경 등에 따라 제한된다. 논문은 이론적 증명을 통해 GD가 안정적인 영역 S_K 안에서 전역적으로 수렴함을 보이며, 수렴 속도는 연속 흐름과 동일한 형태를 가진다. 모델프리 상황에서는 정확한 그라디언트를 계산할 수 없으므로, 저자들은 두 점 차분을 이용한 무작위 탐색(Random Search, RS) 알고리즘을 제안한다. 알고리즘은 구면 위에서 무작위 방향 U_i를 샘플링하고, K±rU_i에 대해 시뮬레이션을 수행해 비용 차이 ˆf_{i,1}−ˆf_{i,2}를 측정한다. 이 차분을 r·U_i 로 나누어 평균을 취하면, 기대값이 실제 그라디언트와 일치하도록 설계된다. 편향은 r에 비례하고, 분산은 샘플 수 N과 시뮬레이션 시간 τ에 의존한다. 주요 정리(Theorem 3)는 다음과 같다. 초기 조건이 서브가우시안 분포를 따를 때, 시뮬레이션 시간 τ≥θ_1 log(1/ε)와 샘플 수 N≥c·(1+β)^4 κ^4 θ_1 log^6 n·n을 만족하면, 적절한 스무딩 파라미터 r<θ_3 √ε와 상수 스텝 사이즈 α를 선택했을 때, RS는 ε-정밀도(f(K_k)−f(K*)≤ε)를 O(log (1/ε))번의 반복 안에 달성한다. 이때 전체 함수 평가 횟수와 시뮬레이션 시간 모두 O(log (1/ε))에 비례한다. 이는 기존 이산시간 LQR 연구에서 요구된 O(1/ε) 혹은 다항식 복잡도와 비교해 현저히 효율적인 결과이다. 기술적 핵심은 비볼록 LQR 문제를 새로운 변수 X와 Y로 재파라미터화하는 것이다. K=Y X^{-1} 로 정의하면, 비용 함수 h(X,Y)=tr(QX+Y^T R Y X^{-1})가 X≻0에 대해 공동 볼록이 된다. Lyapunov 방정식은 선형 형태 A(X)−B(Y)+Ω=0 으로 변환되며, X(Y)=A^{-1}(B(Y)−Ω) 로 명시적으로 표현된다. 이렇게 얻은 볼록 문제를 최적화하면, 원래 비볼록 변수 K에 대한 그래디언트 흐름과 이산화 GD의 수렴성을 직접 연결할 수 있다. 논문은 또한 비볼록 최적화 지형이 갖는 특수성을 논의한다. 비볼록 LQR은 전역 최소점 외에 다른 임계점이 없으며, 모든 서브레벨 집합이 컴팩트하다는 점을 이용해 Lyapunov 함수 기반의 안정성 분석을 수행한다. 이와 더불어, 구조적 제약(예: 스파스성, 분산 제어)으로 인한 검색 공간의 분리성 문제를 언급하고, 제안된 방법이 이러한 제약 하에서도 적용 가능함을 시사한다. 마지막으로, 수치 실험을 통해 이론적 수렴률과 샘플 복잡도 결과가 실제 시뮬레이션에서도 일치함을 확인한다. 실험에서는 다양한 차원(n,m)과 초기 K에 대해 RS와 GD를 비교했으며, RS가 로그 스케일의 시뮬레이션 시간과 함수 평가 횟수로 목표 정확도에 도달함을 보여준다. 요약하면, 이 연구는 (1) 연속시간 LQR의 그래디언트 흐름과 그래디언트 하강의 지수 안정성을 비볼록 문제에서도 보장하고, (2) 두 점 차분 기반 무작위 탐색이 모델프리 설정에서 ε-정밀도를 달성하는 데 필요한 샘플 복잡도와 시뮬레이션 시간을 로그 수준으로 낮출 수 있음을 증명한다. 이는 모델프리 강화학습이 제어 분야에 적용될 때, 이론적 수렴 보장과 실용적인 효율성을 동시에 제공하는 중요한 진전이다.

모델프리 LQR을 위한 그래디언트 방법의 수렴성 및 샘플 복잡도 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기