정규화 최소제곱을 위한 선형 시간 특징 선택

본 논문은 정규화 최소제곱(RLS) 회귀·분류 모델에 대해, LOO(Leave‑One‑Out) 교차검증 기준을 이용한 전진형 탐욕적 특징 선택 알고리즘을 제안한다. 기존 방법들은 훈련 샘플 수·특징 수·선택된 특징 수에 대해 2차 혹은 그 이상의 복잡도를 보였으나, 제안된 “greedy RLS”는 행렬 연산의 단순화와 Sherman‑Morrison‑Woodbury 업데이트를 활용해 전체 시간 복잡도를 O(k · m · n)으로 낮춘다. 실험을 …

저자: Tapio Pahikkala, Antti Airola, Tapio Salakoski

본 논문은 정규화 최소제곱(Regularized Least‑Squares, RLS) 회귀·분류 모델에 대한 전진형 탐욕적 특징 선택 알고리즘을 새롭게 제안한다. RLS는 선형 회귀와 서포트 벡터 머신의 특수 형태로, 정규화 파라미터 λ에 의해 모델 복잡도가 조절되며, 해가 닫힌 형태로 표현될 수 있다는 장점이 있다. 이러한 특성은 행렬 연산을 통한 효율적인 업데이트가 가능함을 의미한다. 논문은 먼저 특징 선택 문제를 크게 세 가지 범주(필터, 래퍼, 임베디드)로 구분하고, 본 연구가 래퍼 방식에 속하지만 동시에 임베디드 방식의 특성을 갖는다고 설명한다. 래퍼 방식은 후보 특징 집합을 평가할 때 실제 학습 알고리즘을 사용해 성능을 측정한다는 점에서 정확도가 높지만, 모든 후보에 대해 모델을 재학습해야 하므로 계산 비용이 급격히 증가한다. 특히 LOO(Leave‑One‑Out) 교차검증을 성능 지표로 사용할 경우, 매 후보마다 m번(샘플 수) 재학습이 필요해 O(k · m · n) 이상의 복잡도가 발생한다. 기존 연구에서는 LOO를 빠르게 계산하기 위해 행렬 역의 Sherman‑Morrison‑Woodbury(SMW) 공식을 이용하거나, dual 형태의 G = (K + λI)⁻¹와 a = G·y를 업데이트하는 방법을 제시했다. 그러나 이러한 방법들은 여전히 훈련 샘플 수 m에 대해 2차 복잡도를 유지하거나, dual 형태에 국한돼 고차원 특징(특히 n ≫ m) 상황에서 비효율적이었다. 본 논문이 제안하는 “greedy RLS” 알고리즘은 다음과 같은 핵심 아이디어를 기반으로 한다. 1. **행렬 연산의 프루닝**: 현재 선택된 특징 집합 S에 대해 이미 계산된 f = wᵀX_S와 q = X_{S,j}ᵀ·(X_S·X_Sᵀ + λI)⁻¹·X_{S,j}를 저장한다. 새로운 후보 특징 i를 평가할 때는 기존 f와 q를 이용해 LOO 예측을 상수 시간에 구한다. 2. **SMW 업데이트**: 특징 i를 추가하면 (X_{S∪{i}}·X_{S∪{i}}ᵀ + λI)⁻¹를 기존 역행렬에 저‑랭크(벡터 외적) 업데이트 형태로 갱신한다. 이 과정은 O(m²)가 아니라 O(m) 수준으로 수행된다. 3. **선형 시간 복합도**: 각 반복에서 n − |S|개의 후보를 모두 평가하고, 각 후보당 O(m) 연산을 수행하면 전체 복잡도는 O(k·m·n)이다. 이는 기존 O(k·m²·n) 혹은 O(k·m³·n) 대비 선형적으로 개선된 것이다. 알고리즘 흐름은 다음과 같다. - 초기에는 빈 특징 집합 S = ∅이며, G = λ⁻¹I, a = λ⁻¹y 로 설정한다. - 매 반복마다 아직 선택되지 않은 모든 특징 i에 대해, SMW 공식을 이용해 G_i와 a_i를 임시로 업데이트하고, LOO 오차를 (7) 혹은 (8) 식으로 빠르게 계산한다. - 가장 낮은 LOO 오차를 보이는 특징을 S에 추가하고, 실제 G와 a를 해당 특징에 대해 영구적으로 업데이트한다. - k번 반복 후, 최종 선택된 특징 집합 S와 대응하는 가중치 w를 반환한다. 실험에서는 합성 데이터(특징 수 10⁴, 샘플 수 10³)와 실제 유전 데이터(특징 수 2·10⁴, 샘플 수 5·10²), 이미지 데이터(특징 수 5·10³, 샘플 수 1·10⁴)에 대해 기존 래퍼 방식, 저‑랭크 업데이트 방식, 그리고 제안된 greedy RLS를 비교하였다. 결과는 다음과 같다. - **시간**: greedy RLS는 가장 큰 데이터셋에서 기존 방법 대비 12~25배 빠른 실행 시간을 기록했다. 특히 샘플 수가 큰 경우에도 선형 복잡도 덕분에 실시간 수준의 처리 속도를 보였다. - **정확도**: 선택된 특징 집합을 이용한 최종 모델의 테스트 정확도는 기존 래퍼 방식과 거의 동일했으며, 경우에 따라 0.5~1% 정도의 소폭 향상이 관찰되었다. 이는 LOO 기반 탐욕적 선택이 실제 일반화 성능을 잘 반영한다는 것을 의미한다. - **메모리**: 추가적인 메모리 사용량은 O(m + n) 수준으로, 전체 데이터 행렬 X를 제외하고는 거의 변하지 않았다. 논문의 마지막 부분에서는 제안된 방법의 확장 가능성을 논의한다. 현재는 선형 RLS에 초점을 맞췄지만, 커널 RLS(즉, LS‑SVM)에도 동일한 SMW 기반 업데이트를 적용할 수 있다. 또한, LOO 대신 k‑fold 교차검증이나 베이지안 정보 기준(AIC, BIC) 등 다른 평가 지표에도 동일한 원리를 적용하면, 다양한 모델 선택 시나리오에 활용 가능하다. 결론적으로, 본 연구는 정규화 최소제곱 모델에 대한 전진형 탐욕적 특징 선택을 선형 시간 복합도로 구현함으로써, 대규모 데이터 환경에서도 효율적인 특징 선택과 희소 모델 학습을 동시에 달성할 수 있음을 입증하였다. 이는 실시간 시스템, 임베디드 디바이스, 혹은 빅데이터 분석 파이프라인 등 다양한 응용 분야에 직접적인 영향을 미칠 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기