견고한 두 블록 동시 차원 축소

본 논문은 두 변수 블록을 동시에 차원 축소하면서 이상치에 강인한 새로운 방법인 Robust Twoblock (RTB)을 제안한다. 밀집형과 희소형 두 버전을 제공하며, 희소형은 각 블록별로 모델 복잡도와 스파시티를 독립적으로 선택할 수 있다. 반복 가중치 부여와 Mahalanobis 거리 기반의 다운웨이팅을 통해 이상치 영향을 억제하고, p > n 혹은 q > n 상황에서도 적용 가능하도록 설계되었다. 시뮬레이션과 실제 데이터 분석을 통해 기…

저자: Sven Serneels

견고한 두 블록 동시 차원 축소
본 논문은 두 개의 변수 블록 X(p)와 Y(q)를 동시에 차원 축소하면서 이상치에 대한 견고성을 제공하는 Robust Twoblock (RTB) 방법을 제안한다. 기존 Twoblock 차원 축소는 중앙화·표준화된 데이터에 대해 교대로 X와 Y에서 잠재 점수 T와 U를 추출하고, 이를 통해 회귀계수 B를 계산한다. 그러나 이러한 절차는 평균과 공분산에 민감해 레버리지 포인트, 수직 이상치, 혹은 두 블록 모두에 발생하는 복합 오염에 크게 왜곡된다. RTB는 이러한 문제를 해결하기 위해 M‑estimation의 반복 가중치 기법을 도입한다. 첫 단계에서 ℓ₁ 중앙값과 τ² 스케일 추정기를 사용해 데이터의 위치와 규모를 강인하게 중앙화·표준화한다. 이후 각 관측치에 대해 X와 Y 각각의 점수 공간(T와 U)에서 Mahalanobis 거리를 계산하고, Hampel 가중치 함수를 적용해 0~1 사이의 가중치를 부여한다. 이 가중치는 관측치가 이상치일수록 0에 가깝게, 정상 관측치는 1에 가깝게 설정된다. 가중치의 제곱근을 대각 행렬 형태로 X와 Y에 곱해 가중치된 데이터 행렬 X_w, Y_w를 만든 뒤, 기존 Twoblock ALS 알고리즘을 그대로 수행한다. 밀집형 RTB는 가중치 업데이트만 반복하고, 희소형 RTB는 각 반복 단계에서 가중치 벡터 w_i와 v_j에 대해 소프트 임계값 η_x, η_y를 적용해 요소별 0‑화(soft‑thresholding)를 수행한다. 이를 통해 각 블록별로 모델 복잡도(h_x, h_y)와 스파시티(η_x, η_y)를 독립적으로 조절할 수 있다. η_x=η_y=0이면 기존 밀집형 Twoblock을 복원하고, η_x, η_y를 1에 가깝게 하면 높은 차원의 변수 선택이 가능해진다. 알고리즘은 다음과 같이 요약된다. (1) 강인한 중앙화·표준화, (2) 초기 가중치 계산, (3) 가중치된 데이터에 대해 Twoblock 모델 적합, (4) 점수 T, U를 가중치의 역수로 보정, (5) 새로운 Mahalanobis 거리와 Hampel 가중치 함수를 이용해 가중치 업데이트, (6) 수렴 기준을 만족할 때까지 반복. 최종 회귀계수 B는 원래 스케일로 되돌려진다. 시뮬레이션 연구에서는 42가지 시나리오(다양한 차원, p > n, n < p, 오염 비율, 잡음 변수 비율)를 200번씩 반복해 총 33 200개의 실험을 수행했다. 결과는 다음과 같다. (i) 정상 데이터에서는 Hampel 가중치의 보수적 절단값(p₁=0.95, p₂=0.975, p₃=0.999) 사용 시 RTB가 기존 Twoblock과 거의 동일한 추정 정확도를 보이며, (ii) 고오염 데이터에서는 공격적 절단값(p₁=0.75, p₂=0.90, p₃=0.95) 사용 시 평균 제곱 오차가 30 % 이상 감소하고, 회귀계수의 L₂ 노름 차이가 크게 줄어든다. 희소형 RTB는 잡음 변수가 전체 변수의 4배 이상인 경우에도 중요한 변수만을 정확히 선택해 F1 스코어가 0.92에 달한다. 이론적 분석에서는 X와 Y 블록에 대한 독립적인 가중치 부여가 레버리지와 수직 이상치를 각각 억제하고, 결합 가중치 w = w_X ⊙ w_Y가 공동 오염에 대한 완충 역할을 함을 증명한다. 또한, 가중치 행렬이 대각선 형태이므로 p > n 혹은 q > n 상황에서도 역행렬 연산이 필요 없으며, ALS 단계의 계산 복잡도는 O(n·(p+q)·h)로 기존 방법과 동일하게 유지된다. 따라서 대규모 고차원 데이터셋에도 실용적으로 적용 가능하다. 결론적으로, RTB는 두 블록 동시 차원 축소와 다변량 회귀를 동시에 수행하면서 이상치에 대한 강인성을 제공하고, 밀집형·희소형 두 형태를 통해 모델 복잡도와 스파시티를 자유롭게 조절할 수 있다. 이는 화학계측, 생물정보학, 이미지 분석 등 고차원·소규모 데이터가 흔히 존재하는 분야에서 기존 방법보다 더 신뢰할 수 있는 해석과 예측을 가능하게 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기