단백질 기능 예측을 위한 그래프 라플라시안 기반 반지도 학습 비교 연구
본 논문은 5개의 이질적인 생물학적 네트워크를 동일 가중치로 통합한 뒤, 비정규화, 대칭 정규화, 랜덤 워크 라플라시안을 이용한 반지도 학습 방법을 적용하여 효모 단백질의 기능을 예측한다. 실험 결과, 통합 네트워크에서 비정규화와 대칭 정규화 라플라시안이 랜덤 워크보다 약간 높은 정확도를 보였으며, 개별 네트워크보다 통합 네트워크가 현저히 우수함을 확인하였다.
저자: Loc Tran
본 논문은 효모( Saccharomyces cerevisiae ) 단백질의 기능을 예측하기 위해 그래프 라플라시안을 기반으로 한 세 가지 반지도 학습 방법을 비교한다. 연구 배경으로는 단백질 기능을 실험적으로 규명하는 비용과 시간의 한계가 있으며, 기존에는 서열 유사도, 단백질‑단백질 상호작용 네트워크, 기계 학습 모델(SVM, ANN) 등을 활용해 왔지만, 그래프 구조 전체를 이용하는 반지도 학습이 최근 주목받고 있다. 특히, 비정규화 라플라시안을 이용한 방법이 이전 연구에서 좋은 성과를 보였으나, 대칭 정규화와 랜덤 워크 라플라시안을 이용한 방법은 아직 단백질 기능 예측에 적용되지 않았다.
데이터는 다섯 개의 이질적인 네트워크로 구성된다. (1) Pfam 도메인 기반 네트워크는 각 단백질을 4950 차원의 이진 벡터로 표현하고, 도메인 벡터 간 내적을 정규화해 가중치를 부여한다. (2) 단백질 복합체 공동 참여 네트워크는 복합체에 동시에 포함된 단백질 쌍에 이진 연결을 만든다. (3) 물리적 단백질‑단백질 상호작용 네트워크는 실험적으로 확인된 직접 상호작용을 이진 가중치로 나타낸다. (4) 유전적 상호작용 네트워크는 유전적 상호작용 데이터를 이진 가중치로 표현한다. (5) 세포주기 유전자 발현 네트워크는 발현 프로파일이 유사한 단백질 쌍에 가중치 1을 부여한다. 각 네트워크는 매우 희소하며, 노드 수는 3588개, 기능 클래스는 CYGD에서 정의한 13개의 최고 수준 클래스이다.
네트워크 통합은 각 네트워크에 동일 가중치(1/5)를 곱해 합산하는 방식으로 수행된다. 저자들은 이전 연구에서 최적 가중치와 동일 가중치가 거의 동일한 성능을 보였으며, 최적화 과정이 고차원 행렬 연산으로 인한 시간 복잡도가 크게 증가한다는 점을 들어 이 방식을 선택하였다.
세 가지 반지도 학습 알고리즘은 모두 라벨 전파 원리를 기반으로 한다. 초기 라벨 행렬 Y는 알려진 단백질에 대해 +1, 알려지지 않은 단백질에 대해 0으로 설정한다.
1. **비정규화 라플라시안 기반 방법**
- 라플라시안 L = D – W, 여기서 D는 degree 행렬.
- 목적함수 E(F) = ½‖F – Y‖_F² + (μ/2) tr(Fᵀ L F).
- 미분 후 0으로 두면 (I + μ L)F = Y → F = (I + μ L)^{-1} Y.
- 수렴 후 각 클래스별 행렬 F의 부호를 취해 최종 라벨을 결정한다.
2. **대칭 정규화 라플라시안 기반 방법**
- 정규화 라플라시안 L_sym = I – D^{-½} W D^{-½}.
- 동일한 정규화 목적함수를 사용하면 해는 F = (I + μ L_sym)^{-1} Y.
- 정규화 과정이 degree 차이를 보정해 고유값이
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기