최적 조건화 정규화로 구현하는 안정적인 의사역전 기반 신경망 학습

** 본 논문은 단일 은닉층 신경망을 의사역전(pseudoinverse)으로 학습할 때 발생하는 수치적 불안정을, 행렬의 조건수(condition number)를 이용해 진단하고, Tikhonov 정규화를 통해 최적의 정규화 파라미터를 이론적으로 도출한다. 제안된 OCReP(Optimally Conditioned Regularization for Pseudoinversion) 방법은 교차 검증에 비해 계산량을 크게 줄이면서 회귀·분류 모두에…

저자: Rossella Cancelliere, Mario Gai, Patrick Gallinari

최적 조건화 정규화로 구현하는 안정적인 의사역전 기반 신경망 학습
** 본 논문은 단일 은닉층 피드포워드 신경망(SLFN)의 출력 가중치를 의사역전(pseudoinverse)으로 직접 구하는 방법의 수치적 불안정을 해결하고자 한다. 기존의 Extreme Learning Machine(ELM)과 같은 접근법은 입력‑은닉 가중치를 무작위로 고정하고, 은닉층 출력 행렬 H를 구성한 뒤, 선형 출력층의 가중치를 최소제곱 해법으로 구한다. H가 정방행렬이 아니거나 특이값이 매우 작을 경우, HᵀH의 역행렬을 계산하는 과정에서 수치적 불안정(ill‑conditioning)이 발생한다. 논문은 먼저 최소제곱(OLS)과 릿지 회귀( ridge regression)의 수식을 정리하고, 정규화 파라미터 λ(또는 γ)가 추가된 비용 함수 E=‖HW−T‖²+γ‖W‖² 를 최소화하는 해가 (HᵀH+γI)⁻¹HᵀT 로 표현된다는 점을 강조한다. 여기서 γ는 Tikhonov 정규화 파라미터이며, γ가 클수록 해는 더 안정적이지만 편향이 증가한다는 전형적인 bias‑variance 트레이드오프가 존재한다. 핵심 기여는 행렬의 조건수 μ(A)=‖A‖·‖A⁺‖(2‑노름 기준에서는 μ(A)=σ₁/σ_p) 를 정규화 파라미터 선택의 기준으로 삼는 것이다. 저자는 HᵀH+γI 의 조건수가 사전에 정의된 임계값 τ 이하가 되도록 γ를 최소화하는 문제를 설정한다. 특이값 분해(H=UΣVᵀ)를 이용하면 HᵀH+γI 의 특이값은 σ_i²+γ 가 된다. 따라서 조건수는 (σ₁²+γ)/(σ_p²+γ) 로 표현되며, 이를 τ 이하로 만들기 위한 최소 γ는 다음과 같이 해석적으로 구한다. γ* = max{0, (σ₁²−τ·σ_p²)/(τ−1)} 이 식은 σ₁, σ_p (즉, 가장 큰 특이값과 가장 작은 특이값)만 알면 바로 계산 가능하다. 실제 구현에서는 전체 특이값을 구하는 SVD 한 번만 수행하면 되며, 이후 γ*를 구하고 정규화된 해 ˆW=(HᵀH+γ*I)⁻¹HᵀT 를 계산한다. 실험에서는 UCI 머신러닝 레포지토리에서 회귀(예: Boston Housing, Concrete)와 분류(예: Iris, Wine) 데이터셋을 선택하였다. 각 데이터셋에 대해 (1) 정규화 없이 의사역전만 사용한 경우, (2) 5‑fold 교차 검증을 통해 최적 λ를 탐색한 경우, (3) 제안된 OCReP를 적용한 경우를 비교하였다. 평가 지표는 평균 제곱 오차(MSE)와 정확도(Accuracy)이며, 추가적으로 조건수와 실행 시간을 보고하였다. 결과는 다음과 같다. 대부분의 데이터셋에서 OCReP는 교차 검증 기반 릿지와 동등하거나 약간 낮은 테스트 오차를 기록했으며, 특히 특이값 스펙트럼이 급격히 감소하는 고차원 데이터(예: 1000 차원 이상)에서 조건수 기반 γ 선택이 수치적 발산을 방지하고 안정적인 해를 제공했다. 실행 시간 측면에서는 교차 검증이 수십 배 이상 오래 걸리는 반면, OCReP는 단일 SVD와 행렬 연산만으로 몇 밀리초 내에 결과를 산출했다. 또한, 조건수 τ 를 10, 100, 1000 등으로 변화시켜도 성능 변화가 크지 않으며, τ=100 정도가 대부분의 경우에 적절한 균형을 제공한다는 실험적 근거를 제시한다. 이는 조건수 기반 파라미터 선택이 과도하게 민감하지 않으며, 실무에서 간단히 적용 가능함을 의미한다. 논문은 마지막으로 정규화 파라미터 선택이 모델 일반화와 직접 연결된다는 이론적 근거를 제시한다. Tikhonov 정규화는 균일 안정성(uniform stability)을 보장하고, 이는 일반화 오차의 상한을 제어한다는 Bousquet & Elisseeff(2002)의 결과와 일치한다. 따라서 조건수 기반 γ* 선택은 단순히 수치적 안정성을 넘어, 이론적으로도 좋은 일반화 특성을 갖는 모델을 만든다. 결론적으로, OCReP는 (1) 정규화 파라미터를 데이터에 맞춰 자동으로 계산, (2) 수치적 안정성을 보장, (3) 교차 검증 대비 계산 비용을 크게 절감, (4) 회귀·분류 모두에서 경쟁력 있는 예측 성능을 제공한다는 장점을 가진다. 향후 연구에서는 다층 신경망, 비선형 정규화, 그리고 온라인 학습 시나리오에의 확장을 제안한다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기