구조적 결측성을 고려한 네트워크 임베딩 전이 학습

TransNEST는 서로 다른 병원·플랫폼 등 다중 사이트에서 부분적으로 겹치는 특징들을 갖는 데이터에 대해, 사이트별 네트워크 임베딩과 공통 그룹(계층) 정보를 결합해 구조적 결측성을 해결한다. 초기 SVD 기반 임베딩을 바탕으로 교차 사이트 일관성, 그룹 내 이상치 등을 자동 분류하고, 선택적으로 정보를 공유·전이함으로써 임베딩 정확도를 향상시킨다. 이론적으로 수렴 속도를 제시하고, 시뮬레이션 및 소아·성인 EHR 전이 사례에서 기존 방법보…

저자: Mengyan Li, Xiaoou Li, Kenneth D M

본 논문은 다중 사이트에서 수집된 이질적인 데이터셋이 부분적으로 겹치는 특징 집합을 가질 때 발생하는 ‘구조적 결측성’ 문제를 해결하기 위해 새로운 전이 학습 프레임워크인 TransNEST(Transfer learning with Network Embeddings under Structured missingness)를 제안한다. 기존 전이 학습 방법들은 대부분 전체 특징 공간이 동일하거나 결측이 무작위라고 가정하지만, 실제 의료, 언어, 추천 시스템 등에서는 사이트마다 측정 프로토콜, 인구통계, 사용 언어 등이 달라 특징이 부분적으로만 겹치고, 겹치는 특징조차도 사이트별로 의미가 다를 수 있다. 이러한 상황을 모델링하기 위해 저자들은 먼저 각 사이트 k( k=1,2)에서 관측된 특징 간 관계를 SPPMI 행렬 S_k 로 정의하고, 이를 저‑랭크 신호 + 노이즈 형태 S_k = M_k + E_k 로 가정한다. 여기서 M_k = X_k X_k^⊤ 은 실제 임베딩 행렬이며, X_k는 n_k×r 차원의 잠재 벡터를 담고 있다. 다음으로, 두 사이트가 공유하는 외부 그룹(계층) 구조 G를 도입한다. 각 특징 i는 그룹 g_i∈

구조적 결측성을 고려한 네트워크 임베딩 전이 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기