단백질 기능 예측을 위한 그래프 라플라시안 기반 반지도 학습 비교 연구

본 논문은 효모( Saccharomyces cerevisiae ) 단백질의 기능을 예측하기 위해 그래프 라플라시안을 기반으로 한 세 가지 반지도 학습 방법을 비교한다. 연구 배경으로는 단백질 기능을 실험적으로 규명하는 비용과 시간의 한계가 있으며, 기존에는 서열 유사도, 단백질‑단백질 상호작용 네트워크, 기계 학습 모델(SVM, ANN) 등을 활용해 왔지만, 그래프 구조 전체를 이용하는 반지도 학습이 최근 주목받고 있다. 특히, 비정규화 라플라시안을 이용한 방법이 이전 연구에서 좋은 성과를 보였으나, 대칭 정규화와 랜덤 워크 라플라시안을 이용한 방법은 아직 단백질 기능 예측에 적용되지 않았다. 데이터는 다섯 개의 이질적인 네트워크로 구성된다. (1) Pfam 도메인 기반 네트워크는 각 단백질을 4950 차원의 이진 벡터로 표현하고, 도메인 벡터 간 내적을 정규화해 가중치를 부여한다. (2) 단백질 복합체 공동 참여 네트워크는 복합체에 동시에 포함된 단백질 쌍에 이진 연결을 만든다. (3) 물리적 단백질‑단백질 상호작용 네트워크는 실험적으로 확인된 직접 상호작용을 이진 가중치로 나타낸다. (4) 유전적 상호작용 네트워크는 유전적 상호작용 데이터를 이진 가중치로 표현한다. (5) 세포주기 유전자 발현 네트워크는 발현 프로파일이 유사한 단백질 쌍에 가중치 1을 부여한다. 각 네트워크는 매우 희소하며, 노드 수는 3588개, 기능 클래스는 CYGD에서 정의한 13개의 최고 수준 클래스이다. 네트워크 통합은 각 네트워크에 동일 가중치(1/5)를 곱해 합산하는 방식으로 수행된다. 저자들은 이전 연구에서 최적 가중치와 동일 가중치가 거의 동일한 성능을 보였으며, 최적화 과정이 고차원 행렬 연산으로 인한 시간 복잡도가 크게 증가한다는 점을 들어 이 방식을 선택하였다. 세 가지 반지도 학습 알고리즘은 모두 라벨 전파 원리를 기반으로 한다. 초기 라벨 행렬 Y는 알려진 단백질에 대해 +1, 알려지지 않은 단백질에 대해 0으로 설정한다. 1. **비정규화 라플라시안 기반 방법** - 라플라시안 L = D – W, 여기서 D는 degree 행렬. - 목적함수 E(F) = ½‖F – Y‖_F² + (μ/2) tr(Fᵀ L F). - 미분 후 0으로 두면 (I + μ L)F = Y → F = (I + μ L)^{-1} Y. - 수렴 후 각 클래스별 행렬 F의 부호를 취해 최종 라벨을 결정한다. 2. **대칭 정규화 라플라시안 기반 방법** - 정규화 라플라시안 L_sym = I – D^{-½} W D^{-½}. - 동일한 정규화 목적함수를 사용하면 해는 F = (I + μ L_sym)^{-1} Y. - 정규화 과정이 degree 차이를 보정해 고유값이

단백질 기능 예측을 위한 그래프 라플라시안 기반 반지도 학습 비교 연구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기