키 내장형 프라이버시 보호 연합 학습 INFL

본 논문은 암 진단·치료에 활용되는 대규모 바이오오믹스 데이터를 보호하면서도 높은 예측 성능을 유지할 수 있는 경량 연합 학습 프레임워크 INFL을 제안한다. INFL은 암호키를 신경망 구조에 직접 삽입하는 Implicit Neural Representation( INR) 모듈을 이용해 클라이언트별 좌표 키를 조건화함으로써 데이터 노출 없이 모델 파라미터만을 공유한다. 다양한 오믹스 작업(대량 단백질 분류, 단일세포 전사체 회귀, 공간 전사체 …

저자: Rongyu Zhang, Hongyu Dong, Gaole Dai

키 내장형 프라이버시 보호 연합 학습 INFL
본 논문은 바이오오믹스 분야에서 데이터 프라이버시와 규제 요구가 점점 강화되는 상황을 배경으로, 데이터 자체를 공유하지 않으면서도 고성능 AI 모델을 공동 학습할 수 있는 새로운 연합 학습 프레임워크인 INFL(Implicit Neural Federated Learning)을 제안한다. 기존 연합 학습은 두 가지 주요 보완책—암호학적 연산(MPC, MHE)과 차등 프라이버시(DP)—에 의존한다. 암호학적 방법은 강력한 보안을 제공하지만 연산·통신 비용이 크게 증가하고, 키 관리의 단일 실패점이 존재한다. 반면 DP는 노이즈 삽입으로 프라이버시를 보장하지만 모델 정확도가 현저히 저하되는 문제가 있다. 이러한 한계를 극복하고자 저자들은 Implicit Neural Representation(INR)이라는 좌표‑조건화 신경망을 플러그인 형태로 로컬 모델에 삽입하고, 각 클라이언트마다 고유한 좌표 키를 부여한다. 전역 서버는 모든 클라이언트가 공유하는 전역 파라미터(전역 키)만을 수집·집계하고, 로컬 키 없이 INR을 실행하면 입력이 무작위 좌표가 되어 출력이 무의미해진다. 따라서 전역 파라미터만으로는 원본 데이터를 복원하거나 모델을 악용할 수 없으며, 이는 암호학적 락과 동일한 보안 효과를 제공한다. 구조적으로 INFL은 기존 모델에 LoRA와 유사한 저차원 적응 파라미터를 추가하지만, 입력이 고차원 피처가 아닌 사전에 정의된 좌표이므로 데이터 자체가 노출되지 않는다. 또한 INR은 경량 구조이므로 연산·메모리 오버헤드가 최소화되어, 기존 MPC·MHE가 요구하는 대규모 연산 인프라 없이도 실시간 연합 학습이 가능하다. 논문은 네 가지 대표적인 오믹스 작업을 통해 INFL의 효용성을 검증한다. 첫 번째 실험은 대규모 단백질 프로테오믹스(1,207 샘플, 14종 암) 데이터에서 MLP 기반 암 서브타이핑 모델에 INR을 적용한 경우이다. 기존 FedAvg와 PPML‑Omics 대비 정확도, F1‑score, AUROC이 각각 2.3%, 2.7%, 3.5% 상승했으며, SHAP 분석을 통해 각 암 유형에 특이적인 단백질 마커가 의미 있게 도출되었다. 두 번째 실험은 단일세포 전사체 perturbation 예측으로, GEARS 모델에 INR을 삽입했을 때 in‑domain 유전자 예측 정확도가 2.8% 향상되고, out‑of‑domain 예측에서도 4.1% 개선되었다. 세 번째 실험은 SpaMosaic 기반 공간 전사체 클러스터링으로, 동일 섹션 간 수평 통합과 서로 다른 모달리티(ADT·RNA) 간 모자이크 통합 모두에서 NMI와 ARI가 기존 방법보다 5~8% 높았다. 네 번째 실험은 비IID 환경에서 클라이언트 참여 비율을 10% 이하로 낮추어도 성능 저하가 미미했으며, INR 크기와 클라이언트 수에 대한 민감도 분석에서도 안정적인 결과를 보였다. 보안 분석에서는 INR이 좌표 키 없이는 입력을 무작위화시키는 특성을 정리증명으로 제시했으며, 전역 파라미터만으로 좌표 키를 추정할 확률이 지수적으로 낮아 실질적인 데이터 복원 공격을 방어한다는 점을 강조한다. 한계점으로는 (1) 좌표 키 관리가 중앙 집중식 키 관리 시스템에 의존한다는 점, (2) INR 차원 설정이 과소/과다될 경우 모델 용량과 프라이버시 보호 사이에 트레이드오프가 발생할 수 있다는 점, (3) 현재 실험이 오믹스 데이터에 국한되어 있어 영상·음성 등 다른 도메인에 대한 일반화 검증이 부족하다는 점을 들 수 있다. 향후 연구에서는 자동화된 키 스케줄링, 다중 키 조합을 통한 다중 수준 프라이버시, 그리고 비오믹스 외 분야로의 적용을 목표로 한다. 결론적으로 INFL은 암호학적 비용을 최소화하면서도 차등 프라이버시의 성능 저하 없이 강력한 데이터 보호를 제공하는 경량 연합 학습 프레임워크이며, 다양한 바이오오믹스 작업에서 실용적인 성능 향상을 입증하였다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기