정규화 최소제곱을 위한 OEM 알고리즘: 이론과 실험
OEM(Orthogonalizing EM) 알고리즘은 임의의 회귀 행렬을 행을 추가해 직교화하고, 결측 응답을 보정한 뒤 폐쇄형 업데이트를 반복함으로써 OLS와 라쏘·SCAD·MCP 등 다양한 정규화 최소제곱 문제를 효율적으로 해결한다. 특이 행렬에 대해서는 Moore‑Penrose 역을 이용한 해로 수렴하고, SCAD·MCP에서는 오라클 속성을, 완전 별칭(collinearity) 상황에서는 그룹 일관성을 보장한다. 수렴 속도 이론과 실험을 …
저자: Shifeng Xiong, Bin Dai, Peter Z. G. Qian
본 논문은 회귀 분석에서 가장 기본적인 최소제곱(OLS) 문제와 라쏘, SCAD, MCP 등 다양한 정규화 페널티가 부여된 최소제곱 문제를 해결하기 위한 새로운 알고리즘, OEM(Orthogonalizing EM)을 제안한다. 기존 EM 기반 결측값 보정 방법은 설계 행렬이 미리 직교화된 경우에만 적용 가능했으나, OEM은 “활성 직교화(active orthogonalization)”라는 절차를 통해 임의의 \(n\times p\) 회귀 행렬 \(X\) 를 행을 추가함으로써 완전 직교화된 설계 행렬 \(X_c\) 로 변환한다. 구체적으로, \(S\) 라는 대각 행렬을 선택하고 \(Z = X S^{-1}\) 를 만든 뒤, \(Z^\top Z\) 의 고유값 분해 \(V^\top \Gamma V\) 를 이용해 \(Δ = B^{1/2} V_1 S^{-1}\) 를 정의한다. 여기서 \(B\) 와 \(V_1\) 은 고유값 \(\gamma_j\) 와 그에 대응하는 고유벡터의 일부를 이용해 구성되며, 최종적으로 \(X_c = \begin{pmatrix}X\\Δ\end{pmatrix}\) 가 열 직교성을 만족한다(\(X_c^\top X_c = d S^2\)).
활성 직교화가 끝나면 OEM은 두 단계의 반복을 수행한다. 첫 번째는 새로 추가된 행에 대한 결측 응답을 현재 추정치 \(β^{(k)}\) 로 보정하는 단계(\(y_{\text{miss}} = Δ β^{(k)}\)). 두 번째는 완전 데이터 \((X_c, y_c)\) 에 대해 최소제곱 혹은 정규화 최소제곱 문제를 푸는 단계이다. 직교성 덕분에 이 단계는 각 계수별로 독립적인 스칼라 최적화 문제로 분해되며, 폐쇄형 해 \(\beta_j^{(k+1)} = u_j/d_j\) (OLS) 혹은 \(\beta_j^{(k+1)} = \arg\min_{\beta_j} \frac12 d_j \beta_j^2 - u_j \beta_j + \lambda p_j(\beta_j)\) (정규화) 로 간단히 계산된다. 여기서 \(u = X^\top y + Δ^\top Δ β^{(k)}\) 이다.
이론적 분석에서는 먼저 OLS 경우를 다룬다. \(X\) 가 완전 열랭크가 아니어도, \(X^\top X + Δ^\top Δ = γ_1 I_p\) 를 만족하도록 \(d=γ_1\) 와 \(S=I\) 를 잡으면, OEM은 초기값이 열공간에 포함될 때 Moore‑Penrose 역을 이용한 최소제곱 해 \(\hat β^* = (X^\top X)^+ X^\top y\) 로 수렴한다. 이는 기존 고유값 분해 기반 방법보다 수치적 안정성이 높으며, 복잡도는 \(O(np^2)\) 로 동일하거나 더 낮다.
정규화 문제에 대해서는 라쏘, SCAD, MCP 등 비선형 페널티를 포함한 목적함수에 대해 좌표별 폐쇄형 업데이트가 가능함을 보인다. 특히 SCAD와 MCP는 비볼록성이 존재하지만, OEM은 각 반복마다 정확한 좌표 최소화를 수행하므로 수렴이 보장된다. 수렴 분석 결과는 (i) 모든 페널티에 대해 OEM이 지역 최소점 혹은 안정점에 수렴하고, (ii) SCAD·MCP에 대해 충분히 많은 반복 후 오라클 속성을 만족하는 해에 도달함을 증명한다. 오라클 속성이란, 실제 비영(0이 아닌) 계수를 정확히 선택하고, 선택된 변수들의 추정이 최소 분산을 갖는 것을 의미한다.
또한 완전 별칭(collinearity)된 열들에 대해 OEM이 “그룹 일관성(grouping coherence)”을 제공한다는 점을 강조한다. 즉, 완전히 동일한 설계 열을 가진 변수들은 추정값이 동일하게 되며, 이는 라쏘와 같은 기존 좌표 하강법이 제공하지 못하는 특성이다.
수렴 속도 이론에서는 직교화 후 남는 행렬 \(D = I - γ_1^{-1} X^\top X\) 의 스펙트럼 반경이 \(1 - γ_r/γ_1\) 로 제한됨을 이용해, 정규화된 경우 \(γ_1\) 를 크게 잡을수록 수렴이 가속된다는 결과를 도출한다. 실험에서는 (a) \(n>p\) 인 “tall” 데이터에서 OEM이 OLS와 비교해 2~5배 빠르게 수렴하고, (b) SCAD·MCP에서도 기존 LLA, coordinate descent 등과 비교해 비슷하거나 더 빠른 수렴을 보이며, (c) 특이 행렬에 대해 Moore‑Penrose 역을 직접 계산하는 방법보다 수치적으로 안정적임을 확인했다. 다만 \(p>n\) 인 “wide” 상황에서는 반복 횟수가 늘어나지만, 사전 차원 축소(예: 스크리닝)와 결합하면 실용성을 확보한다.
결론적으로 OEM은 (1) 임의 회귀 행렬을 직교화하는 전처리, (2) 폐쇄형 업데이트를 통한 효율적 반복, (3) 다양한 정규화 페널티와의 자연스러운 결합이라는 세 가지 핵심 아이디어를 통해 기존 EM·좌표 하강법의 한계를 극복하고, 이론적 수렴 보장과 실험적 효율성을 동시에 제공한다. 향후 연구에서는 대규모 고차원 데이터에 대한 병렬 구현, 비선형 모델(예: 로지스틱 회귀)으로의 확장, 그리고 데이터 흐름 환경에서의 온라인 OEM 개발이 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기