프롬프트 최적화로 본 LLM 과학적 추론 행동 해독

본 논문은 대형 언어 모델(LLM)의 과학적 추론 능력을 이해하고, 프롬프트 설계가 모델의 논리적 행동에 미치는 영향을 체계적으로 조사한다. 서론에서는 LLM이 점차 AGI 수준의 추론 능력을 보이며, 인간‑AGI 협업을 위해 내부 추론 메커니즘을 해석하는 것이 필수적이라고 주장한다. 이를 위해 과학적 추론을 대표하는 두 벤치마크, 즉 대학원 수준의 다중 선택 질문을 제공하는 GPQA와 Lean 기반 형식 검증이 가능한 수학 정리 증명(MiniF2F) 데이터를 선택한다. 두 작업은 각각 개념적·다중 선택 추론과 엄격한 형식 논증이라는 상호 보완적 특성을 지닌다. 배경 부분에서는 기존 체인‑오브‑생각(Chain‑of‑Thought), 프로그램‑오브‑생각(Program‑of‑Thought) 등 인간이 설계한 프롬프트 기법과, 최근 OpenAI o1, DeepSeek R1 같은 내부 추론을 강화한 모델들을 소개한다. 그러나 이러한 접근은 성능 향상에 초점을 맞추며 모델 내부 로직을 해석하는 데는 한계가 있다. 따라서 저자들은 자동화된 프롬프트 최적화 기법을 해석 도구로 전환한다. 구체적으로 Genetic Pareto Evolutionary Prompt Algorithm(GEPA)의 변형을 제안한다. 알고리즘은 초기 시드 프롬프트(P0)를 시작으로, 매 반복마다 현재 프롬프트 집합에서 샘플링·평가·비지배(Pareto) 선택·오류 로그 기반 LLM 비판·LLM 진화 단계로 구성된다. 평가 단계에서는 Lean 정리 증명과 GPQA 질문에 대해 정확도와 오류 로그를 수집하고, 오류 로그를 LLM에게 제공해 “왜 틀렸는가”를 분석하게 한다. 이 비판 결과를 토대로 LLM이 새로운 프롬프트 변이를 생성하고, 비지배 프롬프트 집합에 추가·정제한다. 전체 최적화 과정은 DeepSeek‑V3.2 모델을 사용해 수행했으며, 10~15세대에 걸쳐 프롬프트 길이가 평균 두 배로 늘어나는 현상이 관찰되었다. 실험에서는 네 가지 프롬프트 유형을 비교한다: (1) Hand‑Crafted Simple, (2) Hand‑Crafted CoT, (3) GEPA Optimized Baseline, (4) GEPA Optimized Final. DeepSeek‑V3.2에서는 최종 프롬프트가 Algebra에서 100% 정확도, GPQA에서 94.44% 정확도를 달성해 기존 Hand‑Crafted CoT(97.22%/91.67%)를 능가했다. 그러나 동일 프롬프트를 GPT‑5.4‑mini, GLM‑5, Claude Sonnet 4.6에 적용했을 때는 성능 향상이 제한적이었으며, 경우에 따라 Hand‑Crafted CoT가 더 우수했다. 특히 Claude Sonnet 4.6에서는 최적화 프롬프트가 전반적으로 낮은 점수를 기록했다. 이는 GEPA가 DeepSeek‑V3.2의 아키텍처와 학습 특성에 특화된 “지역 로직”을 학습했음을 의미한다. 프롬프트 내용 분석에서는 최적화 과정이 단순 명령에서 전문가‑코칭 형태로 변모함을 확인했다. 예를 들어 Algebra 프롬프트는 Eisenstein 기준, 다항식 최소화 전략 등을 명시했고, GPQA 프롬프트는 양자장 이론 루프 카운팅과 같은 고급 물리학 지식을 삽입했다. 또한 “거짓 진술 처리”와 같은 오류 방지 프로토콜이 추가돼 모델이 허위 증명을 생성하는 것을 억제한다. 임베딩 시각화에서는 프롬프트가 일관된 방향으로 이동해 성능이 향상되는 경향을 보였으며, 이는 프롬프트 설계 공간에 고성능 서브스페이스가 존재함을 시사한다. 논의에서는 이러한 결과가 두 가지 함의를 가진다고 주장한다. 첫째, 프롬프트 최적화는 모델‑특이적 추론 패턴을 드러내는 강력한 해석 도구이며, 이를 통해 인간이 모델에 맞는 “코칭” 방식을 설계할 수 있다. 둘째, 현재의 최적화는 모델 간 이식성이 낮아 보편적인 추론 원시(primitives)를 찾는 것이 아직 과제로 남는다. 저자들은 향후 연구에서 더 다양한 모델·데이터셋을 포함하고, 모델‑불변적인 논리 구조를 식별하는 방법을 모색해야 한다고 제안한다. 또한 자동화된 프롬프트 진화가 아키텍처 의존성을 갖는 위험성을 경고하며, AGI 시대에 인간이 이해할 수 없는 로직이 등장할 경우를 대비해 투명성 확보 도구가 필요함을 강조한다. 제한점으로는 실험이 두 벤치마크와 네 모델에 국한됐으며, 최적화 과정의 stochastic 특성으로 인해 재현성이 완전하지 않을 수 있음을 인정한다. 향후 연구에서는 “reasoning primitives”를 정의하고, 다양한 언어·수학·과학 도메인에 걸친 교차 검증을 수행함으로써 모델‑불변적인 추론 메커니즘을 구축하고, 자동화된 프롬프트 설계가 인간‑AGI 협업에 실질적인 가치를 제공하도록 해야 한다.

프롬프트 최적화로 본 LLM 과학적 추론 행동 해독

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기