단백질 언어 모델은 자연어와 다르다 층별 정보 분석과 조기 종료 기법 적용

본 논문은 현대 단백질 언어 모델(Protein Language Models, PLM)이 자연어 처리 모델(Natural Language Models, NLM)과 동일한 트랜스포머 아키텍처를 사용함에도 불구하고, 단백질 서열이라는 특수한 데이터 특성 때문에 내부 동작 방식이 크게 다르다는 점을 체계적으로 조사한다. 연구는 크게 두 부분으로 구성된다. 첫 번째는 어텐션 메커니즘의 내부 정보를 층별·헤드별로 분석하여, 위치 정보와 의미 정보가 각각 얼마나 강조되는지를 정량화하는 것이며, 두 번째는 이러한 차이를 활용해 PLM의 중간 층 표현을 조기 종료(Early‑Exit) 방식으로 직접 사용함으로써 비구조적 단백질 특성 예측에서 정확도와 효율성을 동시에 향상시키는 방법을 제안한다. 1. **어텐션 분석 방법** - 기존 연구(Han & Heng, 2025)에서 제시한 어텐션 로그잇을 위치‑의미 성분으로 분해하는 방식을 변형해, 양방향 인코더 모델에도 적용하였다. - 로그잇 w(i‑j, qi, kj) ≈ a(i‑j) + b(kj) + c(qi) 형태로 선형 회귀를 수행해 a(위치), b(의미), c(쿼리) 성분을 추정한다. - 각 헤드마다 위치 성분의 분산과 의미 성분의 분산을 구해 비율 var(pos)/var(sem)을 계산하고, 이를 통해 “위치‑대‑의미” 강조 정도를 측정한다. 2. **실험 설계** - 데이터: UniProtKB/SwissProt에서 무작위 추출한 1,000개의 단백질 서열과, SlimPajama 코퍼스에서 추출한 1,000개의 자연어 문장을 사용했다. - 모델: BERT, ALBERT, T5, XLNet 네 가지 인코더 구조에 대해 각각 NLM(원본)과 대응 PLM(ProtBERT, ProtALBERT, ProtT5, ProtXLNet)을 적용했다. - 분석: 모든 층·헤드에 대해 위에서 정의한 위치‑의미 비율을 계산하고, 입력(단백질 vs 텍스트), 헤드, 층별 변동성을 통계적으로 평가했다. 3. **어텐션 분석 결과** - BERT·ALBERT·T5 기반 PLM은 동일 구조의 NLM에 비해 위치‑의미 비율의 분산이 크게 높았다. 이는 단백질 서열이 짧고, 아미노산 간 물리‑화학적 상호작용이 위치에 민감하게 작용하기 때문으로 해석된다. - XLNet은 입력 순열을 무작위로 섞는 훈련 방식 때문에 위치 정보가 상대적으로 약화되어, 다른 모델과는 다른 패턴을 보였다. - 헤드 수준에서도 PLM은 일부 헤드가 강하게 위치 정보를, 다른 헤드가 의미 정보를 강조하는 등, 보다 다양하고 동적인 어텐션 패턴을 나타냈다. 4. **조기 종료(Early‑Exit) 설계** - 각 층 뒤에 단일 히든 레이어를 가진 MLP를 부착하고, 해당 MLP가 출력하는 클래스 확률의 최대값을 신뢰도 점수로 사용했다. - 신뢰도 점수가 사전 정의된 임계값 t를 초과하면 현재 층에서 예측을 종료하고, 그렇지 않으면 다음 층으로 진행한다. - 두 가지 백업 전략을 도입했다: (1) 마지막 층 출력 사용(Latest Layer Fallback), (2) 전체 층 중 가장 높은 신뢰도를 보인 층의 출력 사용(Most Confident Layer Fallback). 5. **조기 종료 실험 결과** - ESM2, ProtBERT, ProtALBERT 세 모델에 대해 다양한 비구조적 단백질 특성(예: 효소 활성, 세포 위치, 변이 효과) 예측을 수행했다. - 조기 종료를 적용한 모델은 기존 최종‑층 기반 모델 대비 정확도가 0.4 ~ 7.01 %p 향상되었으며, 평균 연산량은 10 % 이상 감소했다. - 특히, Most Confident Layer 백업 전략을 사용할 경우, 중간 층에서 최적의 예측을 얻을 수 있어 효율성 손실 없이 성능을 끌어올릴 수 있었다. 6. **의의 및 향후 과제** - 본 연구는 (i) 단백질 언어가 어휘가 제한적이지만 기능적 다양성이 크기 때문에 어텐션이 위치 정보를 보다 유연하게 활용한다는 근본적인 차이를 밝혀냈으며, (ii) PLM의 중간 층 표현이 특정 작업에 충분히 풍부함을 입증함으로써 “마지막 층만 사용”이라는 기존 관행을 재고하도록 제안한다. - 조기 종료 기법이 NLP에서 효율성 향상을 위해 도입된 반면, 성능 저하가 일반적이었으나, 단백질 도메인에서는 오히려 성능 향상까지 달성된 점은 중요한 발견이다. - 향후 연구는 어텐션 헤드별 의미 해석을 통해 생물학적 기능(예: 결합 부위, 구조적 모티프)과 직접 연결하는 작업, 작업별 최적 임계값 자동 튜닝, 그리고 구조적 예측(3D 구조)에도 조기 종료를 확장하는 방향으로 진행될 수 있다.

단백질 언어 모델은 자연어와 다르다 층별 정보 분석과 조기 종료 기법 적용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기