다변량 응답 예측을 위한 선택적 주성분 회귀 방법

본 논문은 고차원·소표본(HDLSS) 환경에서 다변량 연속 응답을 예측하기 위해, 변수의 전면적 순위화와 최적 주성분 개수 선택을 결합한 새로운 감독형 주성분 회귀(SPCR) 알고리즘을 제안한다. 제안 방법은 기존 Bair et al. (2006)의 단일 주성분 접근을 확장하여 다변량 응답과 다수의 주성분을 효과적으로 활용한다. 시뮬레이션 및 실제 마이크로어레이 데이터 실험을 통해 변수 수 감소와 예측 오차 감소를 입증한다.

저자: Inge Koch, Kanta Naito

**1. 서론** 고차원·소표본(HDLSS) 데이터, 특히 마이크로어레이와 같은 유전체 데이터는 변수 수(p)가 표본 수(N)보다 훨씬 큰 특성을 가진다. 기존 연구는 주로 종양 분류와 같은 이산형 문제에 집중했으며, 연속형 다변량 응답을 예측하는 회귀 모델에 대한 연구는 상대적으로 부족했다. Bair et al.(2006)은 감독형 주성분 회귀(SPCR)를 제안했지만, 첫 번째 주성분만을 사용하고 다변량 응답을 다루지 못한다는 한계가 있었다. **2. 배경 이론** - **다변량 회귀 모델**: Y = XB + E, 여기서 Y(N × q)와 X(N × p)이며, p≫N인 상황에서 일반 최소제곱 해는 불안정한다. - **주성분 회귀(PCR)**: X를 첫 k개의 고유벡터(주성분) Γₖ에 투영해 Z(k)=XΓₖ를 만든 뒤, Z(k)로 회귀를 수행한다. 기존 연구는 k=1을 주로 사용했다. - **정준 상관(Canonical Correlation)**: 다변량 X와 Y 사이의 상관 구조를 행렬 C = Σ_X^{-1/2} Σ_XY Σ_Y^{-1/2} 로 정의한다. C의 첫 고유값 κ₁와 고유벡터(h₁,g₁)는 변수 간 전체 상호작용을 반영한다. **3. 제안 방법** 3.1 **잠재 변수 모델** 응답 y와 예측 변수 x_i를 각각 잠재 변수 s와 잡음으로 표현해 y = Wᵀs + δ, x_i = p_iᵀs + η_i 로 모델링한다. 이때 s는 차원 H(≪p)인 잠재 공간에 존재한다. 3.2 **변수 순위화**

다변량 응답 예측을 위한 선택적 주성분 회귀 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기