다중 클래스 SVM을 위한 적응형 수프노름 정규화 기반 변수 선택
본 논문은 다중 클래스 지원 벡터 머신(MSVM)에서 변수 선택을 동시에 수행하기 위해 두 가지 새로운 정규화 기법을 제안한다. 각 변수의 중요도를 해당 변수와 연관된 K개의 계수 벡터의 sup‑norm(최대 절댓값)으로 정의하고, 이 sup‑norm들의 합에 패널티를 부과하는 방식이다. 또한, 초기 추정값을 이용해 변수별 가중치를 달리하는 적응형 sup‑norm 정규화를 도입해 선택 정확도를 높였다. 제안 방법은 선형 계획법으로 쉽게 구현 가…
저자: Hao Helen Zhang, Yufeng Liu, Yichao Wu
1. 서론
지원 벡터 머신(SVM)은 뛰어난 분류 성능으로 널리 사용되지만, 변수 선택 기능이 내재되어 있지 않아 모든 입력 변수를 동일하게 활용한다. 특히 다중 클래스 문제에서는 K개의 판별 함수가 필요하고, 변수 선택이 더욱 복잡해진다. 기존 연구에서는 L1‑penalty를 적용해 변수 선택을 시도했지만, 각 클래스별 계수를 개별적으로 억제하기 때문에 변수 그룹 전체를 효과적으로 제거하지 못한다.
2. 방법론
저자들은 각 변수 j에 대해 K개의 계수 w_{1j},…,w_{Kj}를 하나의 열벡터 w^{(j)}로 묶고, sup‑norm ‖w^{(j)}‖_∞ = max_k |w_{kj}| 로 변수의 전체 기여도를 측정한다. 이를 기반으로 다음 최적화 문제를 정의한다.
min_{b,w,ξ} Σ_i Σ_k I(y_i≠k) ξ_{ik} + λ Σ_j ‖w^{(j)}‖_∞
subject to ξ_{ik} ≥ 1 + b_k + w_k^T x_i, ξ_{ik} ≥ 0, sum‑to‑zero 제약(∑_k b_k = 0, ∑_k w_{kj}=0).
이때 hinge loss는 다중 클래스 SVM의 표준 손실이며, sup‑norm 패널티는 변수별 최대 절댓값만을 억제한다. 결과적으로, 어느 하나의 클래스에서라도 큰 계수가 존재하면 해당 변수는 모델에 남고, 모든 클래스에서 계수가 0이어야만 완전히 제거된다.
3. 계산 알고리즘
문제 (2.6)를 선형 계획(LP) 형태로 변환한다. 절대값을 비음수 변수 w^+_{kj}, w^-_{kj} 로 분해하고, sup‑norm 제약을 η_j ≥ |w_{kj}| (k=1…K) 로 표현한다. 슬랙 변수 ξ_{ik}와 η_j 를 추가하면 모든 제약이 선형식이 되며, 목적함수는 ξ와 η의 가중합이 된다. 이렇게 변환된 LP는 기존 상용 솔버로 다항 시간 내에 해결 가능하다.
4. 적응형 패널티
단일 λ 로 모든 변수를 동일하게 억제하는 것이 과도하게 제한적일 수 있다. 따라서 초기 추정값 ŵ_{kj} (예: L2‑SVM) 을 이용해 가중치 τ_{kj}=1/|ŵ_{kj}|^γ (γ>0) 를 정의한다. 최적화 문제는
min Σ_i Σ_k I(y_i≠k) ξ_{ik} + λ Σ_k Σ_j τ_{kj}|w_{kj}|
가 된다. 중요한 변수는 작은 τ_{kj} 로 약한 패널티를, 잡음 변수는 큰 τ_{kj} 로 강한 패널티를 받아 선택 정확도가 향상된다.
5. 시뮬레이션 연구
- 5‑class 선형 예시: 변수 100개 중 10개만이 실제로 사용되는 상황에서 sup‑norm 및 적응형 sup‑norm이 변수 선택 정확도(F1)와 테스트 오류에서 L1‑MSVM보다 현저히 우수했다.
- 4‑class 비선형 예시: RBF 커널을 사용했으며, sup‑norm 기반 모델이 동일한 차원의 L1‑MSVM보다 5~7% 낮은 오류율을 기록했다.
- 잡음 비율이 높은 고차원 설정(d=5000, n=50)에서도 적응형 sup‑norm이 20~30개의 핵심 변수를 선택하면서 92% 이상의 정확도를 유지했다.
6. 실제 데이터 적용
Leukemia 데이터(7129 genes, 72 샘플)를 대상으로 2‑class 분류를 수행하였다. 적응형 sup‑norm은 22개의 유전자를 선택했고, 10‑fold CV 정확도는 96.5%로 기존 L1‑SVM(≈93%) 및 다른 그룹 라소 방법보다 뛰어났다. 선택된 유전자는 기존 문헌에서 AML/ALL 구분에 중요한 마커로 보고된 유전자와 높은 겹침을 보였다.
7. 토론 및 결론
- sup‑norm 패널티는 변수 그룹 전체를 한 번에 억제함으로써 모델 희소성을 크게 향상시킨다.
- 적응형 가중치는 변수별 중요도에 따라 패널티 강도를 조절해 과적합을 방지한다.
- LP 기반 구현은 고차원 데이터에서도 실용적인 계산 시간을 제공한다.
- 한계점으로는 sum‑to‑zero 제약이 해의 해석성을 복잡하게 만들 수 있으며, 커널 확장 시 sup‑norm 정의가 비선형 특성에 따라 달라질 수 있다. 향후 연구에서는 비선형 커널에 대한 sup‑norm의 일반화와 다중 작업 학습(task‑learning)과의 연계가 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기