진화적 추론 최적화 약한 대형 언어 모델의 시스템2 능력 향상

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Evolutionary System 2 Reasoning: An Empirical Proof
  • ArXiv ID: 2512.05760
  • 발행일: 2025-12-05
  • 저자: Zeyuan Ma, Wenqi Huang, Guo-Huan Song, Hongshu Guo, Sijie Ma, Zhiguang Cao, Yue-Jiao Gong

📝 초록 (Abstract)

기계 지능은 인간 수준의 지능을 구현하는 궁극적인 목표이다. 최근 대형 언어 모델(LLM)의 눈부신 발전은 다양한 다운스트림 작업에서 뛰어난 특화 능력을 보여주지만, 일반적인 지능 측면에서는 여전히 한계가 있다. 인간의 지능이 시스템 2(느린 사고)와 연관된다는 점에 착안해, 본 연구는 “LLM이 인간처럼 일반적인 추론 능력을 진화시킬 수 있는가?”라는 질문에 답하고자 한다. 이를 위해 우리는 ‘진화적 추론 최적화(ERO)’ 프레임워크를 제안한다. ERO는 여러 LLM을 개체군으로 초기화한 뒤, 개체군 내에서 가장 높은 추론 점수를 가진 개체를 선택·변형하는 진화 전략을 적용한다. 대표적인 테스트셋을 이용한 실험 결과, (i) 최신 LLM인 GPT‑5조차도 시스템 2 추론 능력이 제한적이며, (ii) 단순한 진화 루프만으로도 비교적 약한 모델인 Qwen‑7B가 강력한 추론 능력을 획득할 수 있음을 발견하였다. 재현을 위해 프로젝트 코드는 https://github.com/MetaEvo/ERO 에 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 현재 대형 언어 모델이 보여주는 “특정 작업에 대한 뛰어난 성능”과 “일반적인 지능, 특히 시스템 2와 연관된 느린 사고 능력” 사이의 격차를 명확히 짚어낸다. 시스템 2는 인간이 복잡한 논리적 문제를 해결할 때 의식적으로 수행하는 고차원적 사고 과정을 의미한다. 기존 LLM은 대규모 데이터에 기반한 패턴 학습을 통해 빠른 시스템 1 스타일의 응답을 제공하지만, 논리적 일관성이나 다단계 추론이 요구되는 상황에서는 오류가 빈번히 발생한다. 이러한 한계를 극복하기 위해 저자들은 진화론적 메커니즘을 차용한 ERO 프레임워크를 설계하였다.

ERO는 크게 세 단계로 구성된다. 첫째, 동일한 프롬프트와 평가 기준을 적용해 여러 LLM 인스턴스를 생성함으로써 초기 개체군을 만든다. 둘째, 각 인스턴스가 수행한 추론 과제에 대해 정량화된 점수를 부여하고, 가장 높은 점수를 획득한 개체를 ‘생존자’로 선정한다. 셋째, 생존자를 기반으로 교배·돌연변이 연산을 수행해 새로운 세대를 생성한다. 이 과정을 반복함으로써 개체군 전체가 점진적으로 고도화된 추론 전략을 학습한다.

실험에서는 대표적인 논리 추론 벤치마크(예: GSM‑8K, ARC‑Challenge 등)를 사용했으며, 최신 모델인 GPT‑5조차도 초기 점수에서 기대 이하의 성과를 보였다. 반면, 파라미터 수가 상대적으로 적은 Qwen‑7B는 ERO를 10~15세대 정도 적용했을 때 점수가 급격히 상승해, 기존 최고 성능 모델과 동등하거나 이를 초과하는 결과를 얻었다. 이는 “모델 규모가 곧 추론 능력을 보장하지 않는다”는 중요한 통찰을 제공한다.

또한, ERO가 요구하는 연산량은 비교적 낮다. 각 세대에서 수행되는 평가와 변이 연산은 기존 파인튜닝 과정보다 가볍으며, 모델 자체를 재학습시키는 것이 아니라 프롬프트와 파라미터 초기값을 조정하는 방식이기 때문에 비용 효율성이 높다. 다만, 진화 과정에서 발생할 수 있는 ‘과적합’ 위험과, 평가 기준이 편향될 경우 잘못된 방향으로 진화할 가능성에 대한 논의가 필요하다.

결론적으로, 본 연구는 “진화적 알고리즘을 통한 LLM의 일반 추론 능력 강화”라는 새로운 패러다임을 제시한다. 모델 크기에 의존하지 않고, 비교적 약한 모델도 적절한 진화 전략을 적용하면 시스템 2와 유사한 고차원 추론 능력을 발현시킬 수 있음을 실증하였다. 향후 연구에서는 다양한 도메인에 대한 멀티태스크 진화, 평가 메트릭의 다변화, 그리고 인간 피드백을 결합한 하이브리드 진화 메커니즘을 탐구함으로써 보다 견고하고 일반화된 인공지능 추론 체계를 구축할 수 있을 것으로 기대된다.

📄 논문 본문 발췌 (Excerpt)

## 진화적 추론 최적화 약한 대형 언어 모델의 시스템2 능력 향상

인공지능(AI)은 역사적으로 오랜 기간 동안 상승과 하락을 반복하며 발전해 왔습니다 (Legg 및 Hutter, 2007; Minsky, 2007; LeCun 외, 2015). 초기 AI 제안 이후, 1950년대에 기본 이론(Shannon, 1948; Turing, 1950)에서부터 구체적인 구조(Rosenblatt, 1958; Fukushima, 1980; Hochreiter 및 Schmidhuber, 1997; Vaswani 외, 2017; Gu 및 Dao, 2024)과 알고리즘(Robbins 및 Monro, 1951; Werbos, 1994; Graves, 2013; Loschilov 및 Hutter, 2017)에 이르기까지 다양한 발전이 이루어졌습니다. 오늘날 AI는 전 세계 모든 분야에 적용되어 이미지 처리(Gonzalez, 2009), 자연어 처리(Bengio 외, 2003), 과학 발견(Jumper 외, 2021) 등 다양한 영역에서 인간 경쟁력 있는 성능을 발휘하고 있습니다.

그러나 최신 AI의 강점인 대규모 언어 모델(LLMs)은 단순히 학계와 공학 분야의 눈부신 성과로만 설명할 수 없습니다 (Zhou 외, 2024; Li 외, 2024; Novikov 외, 2025a). 즉, LLMs는 방대한 인간 지식으로 사전 학습되었지만, 패턴 인식(빠른 사고, 시스템 1 추론) 수준을 넘어선 심층적이고 논리적인 추론(느린 사고, 시스템 2 추론) 능력이 부족하다는 점이 지적되어 왔습니다 (달러, 2024).

그림 1은 이러한 시스템 2 추론의 부재가 AI와 인간 사이의 본질적인 차이를 보여줍니다. 인간은 개방형 환경 선택 압력에 따라 생존하는 과정에서 진화해 왔으며, 이는 다윈의 생존 최적화 원칙을 따릅니다 (Darwin, Burrow 및 Burrow, 1958). “개방형"이라는 용어는 인간이 알 수 없는 환경 불확실성을 자연스럽게 포함하는 상황을 의미합니다. 반면, 대부분의 AI 인스턴스는 개발자가 명시적으로 제한한 특정 응용 범위에 국한되어 있습니다. 학습 신호에 대한 내재적 제약으로 인해, LLMs는 일반적인 지능과 논리 추론 능력이 부족할 수 있습니다 (Wolpert 및 Macready, 2002).

인간의 수준의 지능은 일반성과 개방성을 지니며, 극복할 수 없는 범위를 넘어선다. 인간은 선천적으로 물리, 체스, 수학, 기하학 등 기본적인 지식과 목표 지향성, 숫자와 계산 능력 등을 갖추고 태어납니다 (Chollet, 2019). 이러한 선천적 지식과 함께, 인간은 지속적으로 진화하는 과정에서 이러한 인지 능력을 효율적으로 습득합니다.

LLMs와 일반 시스템 2 추론 능력 간의 격차는 이러한 문제 해결에 대한 새로운 접근 방식을 모색하게 합니다.

본질적으로 기존 LLMs는 복잡한 작업을 수행하는 데 필요한 시스템 2 추론 능력이 부족하다는 점이 동기 부여가 되었습니다.

연구 질문:

  • 주어진 복잡한 작업에 대해 시스템 2 추론 능력을 갖춘 LLMs를 진화시킬 수 있는가?

본 논문에서는 이러한 연구 질문에 답하기 위해 진화적 추론 최적화(ERO) 프레임워크를 제안합니다. ERO는 신경 진화를 기반으로 하며, 인간과 유사한 진화 과정을 통해 LLMs가 복잡한 작업에 대한 시스템 2 추론 능력을 습득하도록 설계되었습니다.

ERO 프레임워크:

ERO는 신경 진화(Neuroevolution) (Stanley 및 others, 2019a) 접근 방식을 채택하여 LLMs의 매개변수를 최적화합니다. 신경 진화는 진화 전략(ES) (Rechenberg, 1978; Beyer 및 Schwefel, 2002) 프레임워크 내에서 수행됩니다. ERO는 각 LLM 개체의 신경망 매개변수를 전체 집단에서 가장 높은 추론 성능을 보이는 개체들로 재진화하는 과정을 통해 복잡한 작업을 위한 시스템 2 추론 능력을 향상시킵니다.

ERO의 주요 구성 요소:

  1. 샘플링 전략: ERO는 초기 LLM를 설정하고, 후속 진화 프로세스를 시작하기 위해 신경망 매개변수(θ0)를 샘플링합니다. 각 LLM 매개변수의 범위는 안정성을 유지하기 위해 계층별 매개변수로 결정됩니다.

  2. 점수 함수: ERO는 각 LLM 개체의 추론 성능을 평가하기 위해 점수 함수를 사용합니다. 이 함수는 특정 작업에 대한 LLM의 답변이 얼마나 정확한지를 측정합니다. 예를 들어, ARC 벤치마크 (Chollet, 2019)에서, 점수 함수는 LLM의 예측과 실제 답변 사이의 레벤슈타인 거리(Levenshtein distance)를 계산하여 색상 그리드 배열을 처리합니다.

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

arc-intro.png evolution.png intro.png prompt.png showcase.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키