분자 트랜스포머 설계 자동 탐색, 전이 가능성은
본 연구는 LLM 기반 자동 아키텍처 탐색이 SMILES, 단백질 서열, 그리고 자연어 텍스트에 미치는 영향을 체계적으로 비교한다. 3,106개의 실험을 통해 SMILES에서는 하이퍼파라미터 튜닝만으로도 최적 성능을 달성하고, 아키텍처 탐색은 오히려 성능을 저하시킨다는 사실을 발견했다. 반면 자연어에서는 아키텍처 변형이 전체 개선의 81%를 차지했으며, 단백질은 중간 정도의 효과를 보였다. 흥미롭게도 에이전트가 도출한 41개의 혁신은 세 도메인…
저자: Edward Wijaya
이 논문은 분자 데이터와 자연어 데이터가 공유하는 트랜스포머 기반 딥러닝 모델의 설계가 실제로 동일한 접근법으로 최적화될 수 있는지를 검증하기 위해 설계되었다. 기존 연구들은 화학 물질의 SMILES 문자열이나 단백질 서열을 처리할 때 NLP용 트랜스포머를 거의 그대로 적용해 왔으며, 이는 두 데이터 유형이 구조적으로 크게 다르지만 동일한 모델이 충분히 성능을 낼 것이라는 암묵적 가정을 내포한다. 저자들은 이러한 가정에 도전하고, 자동 아키텍처 탐색(Neural Architecture Search, NAS)이 도메인별로 실제로 차별적인 이점을 제공하는지를 체계적으로 분석한다.
연구는 크게 네 가지 실험 조건을 설정했다. 첫 번째는 LLM‑guided 전체 탐색으로, GPT‑5.4 기반 에이전트가 코드(modify train.py)를 직접 수정하면서 아키텍처와 하이퍼파라미터를 동시에 최적화한다. 두 번째는 무작위 NAS로, 사전에 정의된 범위 내에서 깊이, 폭, 헤드 수, 활성화 함수, 어텐션 패턴 등을 무작위로 샘플링한다. 세 번째는 하이퍼파라미터 전용 LLM 탐색으로, 에이전트가 아키텍처는 고정하고 학습률, 배치 크기, 가중치 감쇠, 스케줄 등만 조정한다. 마지막은 고정 기본 모델로, 어떠한 변경도 가하지 않은 상태에서 단일 실행을 수행한다.
세 트랙은 각각 SMILES(ZINC‑250K, 어휘 37, 시퀀스 길이 256), 단백질(UniRef50, 어휘 24, 시퀀스 길이 512), 그리고 영어 텍스트(FineWeb‑Edu, 어휘 약 8K, 시퀀스 길이 2048)로 구성되었다. 모든 실험은 동일한 8.6M 파라미터 규모의 디코더‑전용 트랜스포머를 시작점으로 하며, 5분 훈련 예산(토큰 65,536) 내에서 진행된다. 검증 성능은 비트‑퍼‑바이트(val bpb)로 측정하고, 최종 성능뿐 아니라 최적화 효율을 나타내는 UC‑OC(area under optimization curve)와 keep rate(성공적인 변경 비율)도 기록한다.
SMILES 트랙에서 가장 눈에 띄는 결과는 하이퍼파라미터 전용 LLM 탐색이 기본 모델 대비 151% 이상의 개선을 달성했으며, 전체 탐색이 오히려 성능을 감소시켰다는 점이다(p = 0.001). 이는 SMILES가 어휘가 작고 시퀀스가 짧아 모델 용량보다 학습 스케줄과 학습률 같은 하이퍼파라미터가 성능에 더 큰 영향을 미친다는 것을 의미한다. 반면 자연어 트랙에서는 전체 탐색이 가장 큰 개선을 보였고, 아키텍처 변형이 전체 개선의 81%를 차지했다(p = 0.009). 이는 NLP에서 어텐션 구조, 헤드 수, 깊이 등 아키텍처 요소가 성능에 결정적인 역할을 함을 재확인한다. 단백질 트랙은 두 극단 사이에 위치했으며, 통계적으로 유의미한 차이는 없었지만, 아키텍처와 하이퍼파라미터 모두가 비슷한 수준의 기여를 하는 것으로 해석된다.
에이전트가 도출한 41개의 혁신—예: 그룹드 쿼리 어텐션(GQA), 게이트형 선형 유닛(gated MLP), 새로운 정규화 방식 등—은 세 도메인 모두에서 <1%의 성능 저하만을 보이며 전이 가능했다(p = 2 × 10⁻¹⁹). 이는 도메인별 최적 설계가 실제로는 검색 경로에 의한 편향일 가능성을 높이며, 작은 규모(≈8.6M 파라미터)에서는 구조적 차이가 크게 작용하지 않음을 암시한다. 또한, 무작위 NAS와 비교했을 때 LLM‑guided 탐색은 유지율과 UC‑OC에서 유의미하게 우수했으며, 이는 LLM이 인간 전문가 수준의 직관을 코드 수준에서 구현할 수 있음을 보여준다.
프록시 검증에서는 5분 훈련과 2시간 훈련 간 순위 상관계수 Spearman ρ = 0.54(p = 0.014)로 중간 정도의 일관성을 보였으며, 이는 대규모 훈련에서는 결과가 달라질 수 있음을 시사한다. 통계적 검증은 부트스트랩 신뢰구간, 베이지안 t‑검정, 그리고 비모수적 검정을 조합해 수행했으며, 각 조건 간 비교는 실험 반복 수가 3~5회인 점을 감안해 신중히 해석했다.
연구는 실용적인 의사결정 프레임워크를 제시한다. 짧고 어휘가 제한된 SMILES와 같은 도메인에서는 하이퍼파라미터 튜닝에 집중하고, 어휘가 크고 시퀀스가 긴 NLP와 같은 도메인에서는 전체 아키텍처 탐색을 권장한다. 또한, 저자들은 전체 실험 로그와 에이전트 프롬프트, 그리고 자동 탐색 툴킷을 오픈소스로 공개해, 연구자들이 자체 환경에 맞는 전략을 선택하고 재현 가능하도록 지원한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기