상관행렬 근사와 시각화의 향상된 방법

본 논문은 다변량 데이터에서 상관행렬을 시각화하고 근사하는 다양한 통계적 방법들을 체계적으로 검토하고, 특히 가중 교대 최소제곱(Weighted Alternating Least Squares, 이하 W‑ALS) 방법에 상수 보정(additive adjustment)을 결합한 새로운 절차가 기존 방법들보다 우수함을 실증한다. 연구는 먼저 심장발작(Heart attack) 데이터셋을 사용해 7개의 변수(CI, SI, VP, Pulse, logPR, DBP, PA)의 상관행렬을 구하고, 이를 시각화하기 위한 전통적 방법들을 적용한다. 1. **주성분분석(PCA)**: 표준화된 데이터 행렬 X_s에 대한 특잇값 분해를 수행하고, 첫 두 주성분을 이용해 상관행렬을 근사한다. 이때 벡터 간 코사인 각도가 상관을 근사하지만, 차원을 제한하면 대각선(자기상관)까지 포함한 전체 행렬을 완전히 재현하지 못한다. PCA 기반 biplot에서 스칼라 곱을 사용한 근사는 RMSE 0.1315, 코사인 기반은 0.3181로 나타났다. 2. **correlogram(CRG)**: 각 변수의 방향만을 사용해 코사인으로 상관을 근사하고, 벡터 길이는 무시한다. 이는 PCA보다 약간 낮은 RMSE 0.2885를 보였지만, 여전히 오차가 남는다. 3. **다차원척도법(MDS)**: 상관을 거리 d_ij = 2(1‑r_ij) 로 변환한 뒤 고전적 메트릭 MDS를 적용한다. 이 방법은 대각선이 자동으로 1이 되지만, 거리‑상관 변환의 비선형성으로 인해 원본 상관값과 차이가 발생한다. 4. **주요요인분석(PFA)**: 공통요인 모델 R = LL' + Ψ 를 이용해 대각원을 별도 추정한다. 대각선 피팅을 회피함으로써 PCA보다 약간 개선된 RMSE를 얻지만, 요인공통성 제한(≤1) 때문에 변수 벡터가 단위원을 초과하면 적합도가 급격히 악화된다. 5. **가중 교대 최소제곱(W‑ALS)**: 일반적인 저차원 행렬 근사 문제를 가중치 행렬 W 로 확장한다. 여기서 W = J‑I (J는 전원 행렬, I는 단위 행렬) 로 설정해 대각선에 0 가중치를 부여하고, 오프‑대각선에만 가중치 1을 부여한다. 이 방식은 대각선 피팅을 의도적으로 배제하고, 변수 벡터의 길이에 제약을 두지 않음으로써 공통성이 1에 가까운 경우에도 자유롭게 스케일링된다. 실험 결과, W‑ALS만 사용했을 때 RMSE는 0.1234 로 가장 낮았다. 6. **W‑ALS + additive adjustment**: 논문은 위 방법에 상수 δ 를 모든 상관값에서 빼는 보정을 추가한다. 최적 δ 는 손실 함수 σ(A,B,δ)=∑_ij w_ij (r_ij‑δ‑a_i' b_j)^2 를 최소화함으로써 구한다. 이 보정은 원점이 “0 상관”이 아니라 δ 수준의 상관을 나타내게 하여, 스칼라 곱이 실제 상관값의 편차를 직접 반영하도록 만든다. 최적 δ 를 적용한 W‑ALS는 RMSE를 0.0987 로 추가 감소시켰으며, 이는 기존 모든 방법을 압도한다. 추가적으로, 논문은 이 보정이 대칭성을 유지하고, PCA의 스펙트럴 분해에도 적용 가능하지만, 대각선 피팅 문제는 여전히 남는다는 점을 언급한다. 따라서 대각선 피팅을 회피하고 전체 행렬을 가장 정확히 근사하려면 가중치와 additive adjustment 를 결합한 W‑ALS가 최적의 선택이다. 결론적으로, 상관행렬을 시각화하고 저차원 근사하려는 연구자는 전통적인 PCA나 correlogram 대신, 대각선 가중치를 0으로 두고, 전체 행렬에 최적 상수 보정을 적용한 W‑ALS를 사용함으로써 더 낮은 RMSE와 직관적인 벡터 해석을 얻을 수 있다. 이는 특히 변수 간 상관이 강하고, 일부 변수의 공통성이 1에 가까운 경우에 유용하며, R 패키지 ‘Correlplot’에 구현된 wAddPCA 함수를 통해 손쉽게 적용 가능하다.

상관행렬 근사와 시각화의 향상된 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기