기관 기록에서 과학적 안목을 학습한 AI

본 논문은 과학적 진보를 이끄는 핵심 역량인 ‘과학적 맛(판단력)’을 인공지능이 어떻게 습득할 수 있는지를 실증적으로 탐구한다. 저자들은 먼저 과학적 평가가 명시적 규칙이 아닌, 학술지 출판 결정이라는 제도적 기록에 내재된 ‘암묵적 지식’임을 주장한다. 이를 검증하기 위해 관리학·조직심리학 분야에서 120개의 연구 피치를 4단계(예외적, 강함, 보통, 제한)로 균형 있게 배치한 보류 벤치마크를 구축하였다. 각 피치는 원 논문의 핵심 연구 질문과 이론적 배경만을 남기고, 방법·결과·저널 정보는 제거해 아이디어 자체만으로 품질을 판단하도록 설계되었다. 벤치마크의 정답 라벨은 해당 논문이 실제로 게재된 저널의 prestige tier에 기반한다. 이를 위해 2020‑2025년 사이에 4,479개의 피치‑출판 결과 쌍을 최신 학습용 데이터로, 2015‑2020년 사이에 3,368개를 시간적 지속성 검증용으로 수집하였다. 학습에 사용된 베이스 모델은 GPT‑4.1, GPT‑4.1‑nano, Qwen3‑4B, Qwen3‑30B 등 네 종류이며, 각각을 동일한 포맷의 지도학습(Supervised Fine‑Tuning, SFT)으로 미세조정하였다. 평가 단계에서는 48명의 편집자·편집위원(전문가)와 174명의 주니어 연구자를 포함한 2,914개의 인간 라벨을 수집했으며, 동시에 11개의 최신 프론티어 언어 모델(예: Gemini 3.1 Pro, Claude Opus 4.6, GPT‑5.2 High 등)과 4개의 미세조정 모델, 그리고 모델 앙상블을 동일한 프롬프트와 등급 정의 하에 테스트하였다. 프론티어 모델은 평균 정확도 31.1%에 그쳤으며, 매크로‑F1 점수도 0.236으로 무작위 수준에 못 미쳤다. 대부분의 모델이 ‘강함’·‘보통’ 등 중간 등급에 몰려 ‘제한’ 등급을 거의 예측하지 못하는 ‘예측 붕괴’ 현상을 보였다. 반면, SFT 모델은 55‑59% 정확도를 달성했고, 두 모델을 평균화한 앙상블은 60.8%까지 상승하였다. 특히 모델이 자체적으로 산출한 자신감 점수와 실제 정답 사이에는 강한 상관관계가 있었으며, 상위 10% 자신감 구간에서는 100% 정확도를 기록했다. 이는 모델이 단순히 학습 데이터의 라벨을 암기한 것이 아니라, 라벨이 내포한 평가 기준을 내재화했음을 의미한다. 또한, 학습되지 않은 형식인 쌍별 비교(task: 두 피치 중 어느 것이 더 높은 품질인가)와 한 문장 요약 입력에서도 모델은 높은 정확도를 유지했다. 이는 ‘맛’이 특정 입력 포맷에 국한되지 않고, 보다 일반적인 품질 순서를 추론할 수 있음을 보여준다. 경제학 분야에서도 동일한 파이프라인을 적용했을 때 69.5% 정확도를 기록, 분야 일반화 가능성을 확인하였다. 한편, 동일 모델을 강화학습(RL) 기반 체인‑오브‑생각(Chain‑of‑Thought) 설정과 비교했을 때, SFT가 더 높은 평가 정확도를 보였으며, RL이 오히려 ‘승낙 편향(sycophancy)’을 강화해 평가 능력을 저하시킨다는 점을 강조한다. 결과적으로 논문은 세 가지 주요 시사점을 제시한다. 첫째, 과학적 평가 능력은 개인의 직관이 아니라, 오랜 시간에 걸쳐 축적된 제도적 합의에 기반한 집단적 암묵지이며, 이는 대규모 출판 기록이라는 형태로 남아 있다. 둘째, 이러한 암묵지는 지도학습을 통해 효과적으로 추출될 수 있으며, 모델은 이를 통해 인간 전문가와 기존 최첨단 모델을 능가하는 평가 능력을 획득한다. 셋째, 획득된 ‘맛’은 다양한 입력 형식과 다른 학문 분야에도 전이 가능하므로, AI가 논문·연구 아이디어 선별, 연구 자금 배분, 특허·창업 아이디어 평가 등 다양한 의사결정 상황에서 실용적인 도구가 될 잠재력을 가진다. 따라서 과학적 진보의 병목인 ‘무엇을 연구할 것인가’라는 판단을 AI가 지원함으로써, 급증하는 연구 생산량을 효율적으로 관리하고, 혁신적인 아이디어가 조기에 발견·지원될 수 있는 새로운 인프라를 구축할 수 있음을 시사한다.

기관 기록에서 과학적 안목을 학습한 AI

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기