혼합형 데이터의 결측값을 위한 비모수 랜덤 포레스트 imputation

본 논문은 현대 생명과학·의학 연구에서 고속·고용량 데이터 수집 과정에서 빈번히 발생하는 결측값 문제를 해결하기 위해, 연속형과 범주형 변수를 동시에 다룰 수 있는 비모수적 결측값 대체 기법인 missForest를 제안한다. 기존의 결측값 대체 방법은 대부분 연속형 전용(KNNimpute, MissPALasso)이나 범주형 전용(MICE)으로 제한되었으며, 변수 유형을 별도로 처리함으로써 변수 간 잠재적 상호작용을 무시하는 단점이 있었다. 이러한 문제점을 극복하고자 저자들은 랜덤 포레스트(Random Forest)를 기반으로 한 반복적 imputation 프레임워크를 설계하였다. ### 알고리즘 개요 1. **초기값 설정**: 결측값을 평균(연속형) 혹은 최빈값(범주형) 등 단순 방법으로 초기 대체한다. 2. **변수 정렬**: 결측 비율이 낮은 변수부터 순차적으로 처리하기 위해 변수들을 오름차순으로 정렬한다. 3. **랜덤 포레스트 학습**: 현재 변수 X_s 의 관측값 y(s)_obs 을 종속변수, 나머지 변수들의 관측값 x(s)_obs 을 설명변수로 사용해 회귀(연속형) 혹은 분류(범주형) 랜덤 포레스트를 학습한다. 4. **결측값 예측**: 학습된 모델을 결측 인덱스 i(s)_mis 에 적용해 y(s)_mis 을 예측하고, 행렬을 업데이트한다. 5. **반복 및 종료**: 모든 변수에 대해 위 과정을 수행한 뒤, 새로운 행렬과 이전 행렬 사이의 변화량(연속형은 정규화된 L2 차, 범주형은 오분류 비율)이 증가하기 시작하면 반복을 멈춘다. ### 주요 특징 - **비모수성**: 데이터 분포에 대한 가정이 거의 없으며, 복잡한 비선형·상호작용을 자동으로 포착한다. - **혼합형 지원**: 회귀와 분류 트리를 동일 프레임워크 내에서 사용하므로 연속·범주형 변수를 별도 처리할 필요가 없다. - **OOB 오류 활용**: 각 트리의 Out‑of‑Bag 샘플을 이용해 변수별 예측 오차를 추정하고, 이를 평균해 전체 imputation 오류를 근사한다. 별도의 검증 데이터가 없어도 오류 추정이 가능하다. - **튜닝 파라미터 최소화**: 기본적으로 트리 수, 최대 깊이 등은 기본값을 사용하고, 교차 검증이 필요 없는 ‘무조정’ 방식이다. ### 실험 설계 - **데이터셋**: 총 10개의 공개 데이터셋(연속형 전용 4개, 범주형 전용 2개, 혼합형 4개)으로 구성. 예시로는 *Arabidopsis* 이소프레노이드 유전자 네트워크, 파킨슨 환자 음성 측정, 머스크 분자 형태, 인슐린 저항성 데이터 등이 있다. - **결측률**: 10%, 20%, 30%를 무작위(MCAR)로 삽입하고, 각 조건에서 50번의 시뮬레이션을 수행했다. - **비교 방법**: KNNimpute(최적 k를 교차 검증), MissPALasso(λ를 교차 검증), MICE(조건부 회귀 기반 다중 imputation) 및 KNNimpute의 더미 코딩 버전을 사용했다. - **평가 지표**: 연속형 변수는 정규화된 RMSE(NRMSE), 범주형 변수는 오분류 비율(PFC)로 측정하였다. 또한 OOB 오류와 실제 오류 간의 차이를 절대값 평균으로 평가했다. ### 결과 요약 - **정확도**: 대부분의 데이터셋에서 missForest는 KNNimpute와 MissPALasso보다 낮은 NRMSE를 기록했으며, 특히 변수 간 복잡한 상호작용이 존재하는 경우(예: 유전자 네트워크) 30%~50% 정도의 오차 감소를 보였다. 범주형 및 혼합형 데이터에서도 PFC가 다른 방법보다 현저히 낮았다. - **통계적 유의성**: Paired Wilcoxon 테스트 결과, missForest가 다른 방법보다 우수한 경우 p < 0.001 수준의 유의성을 보였다. - **OOB 오류 신뢰도**: OOB 추정치와 실제 NRMSE·PFC 사이의 평균 절대 차이는 10~15% 이내였으며, 이는 실무에서 별도 검증 없이도 대체 품질을 판단할 수 있음을 의미한다. - **계산 효율성**: 평균 5~7회의 반복 후 수렴했으며, 전체 실행 시간은 KNNimpute와 비슷하거나 더 짧았다. 고차원(>1000 변수) 상황에서도 메모리 사용량이 합리적이었다. ### 한계 및 향후 과제 - **초기값 의존성**: 현재는 평균·최빈값 초기화에 의존하고 있어, 결측률이 매우 높을 경우 초기값이 최종 결과에 영향을 미칠 가능성이 있다. - **극단적 결측 상황**: 50% 이상 결측이 존재하는 경우 OOB 오류가 실제 오류를 과소평가하는 경향이 관찰되었다. - **변수 중요도 활용**: 랜덤 포레스트가 제공하는 변수 중요도를 이용해 가중치 기반 imputation을 설계하면 성능 향상이 기대된다. 결론적으로 missForest는 혼합형 데이터에 대한 결측값 대체 문제를 비모수적이며 효율적으로 해결하는 강력한 도구이며, OOB 오류를 통한 자체 검증 메커니즘은 실무 적용성을 크게 높인다.

혼합형 데이터의 결측값을 위한 비모수 랜덤 포레스트 imputation

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기