생각 흐름으로 보는 언어 모델링

읽는 시간: 5 분
...

📝 원문 정보

  • Title: Modeling Language as a Sequence of Thoughts
  • ArXiv ID: 2512.25026
  • 발행일: 2025-12-31
  • 저자: Nasim Borazjanizadeh, James McClelland

📝 초록 (Abstract)

트랜스포머 기반 언어 모델은 토큰을 순차적으로 예측함으로써 매우 자연스러운 텍스트를 생성한다. 그러나 표면적인 동시출현 통계에 의존하기 때문에 엔티티와 사건에 대한 전역적인 잠재 표현을 형성하지 못하고, 이는 관계 일반화(역전 저주), 문맥 오류, 데이터 비효율성 등으로 이어진다. 인지과학에서는 인간이 언어 입력을 압축된 사건‑유사 표현으로 전환해 작업 기억에 유지하고, 원문 형태는 짧게 기억한다고 보고 있다. 이러한 인지적 통찰을 바탕으로 우리는 Thought Gestalt(TG) 모델을 제안한다. TG는 토큰 수준과 문장 수준 “생각” 상태라는 두 단계 추상화를 갖는 순환형 트랜스포머이다. TG는 한 문장의 토큰을 생성하면서 이전 문장들의 생각 벡터에 교차‑어텐션을 수행한다. 토큰과 문장 표현은 동일한 트랜스포머 블록 스택을 공유하며, 다음 토큰 예측 손실만을 사용해 학습한다. 문장 벡터를 작업 기억에 기록할 때 계산 그래프를 보존함으로써, 미래 토큰 손실의 그래디언트가 교차‑어텐션을 거쳐 이전 문장 벡터를 생성한 파라미터까지 역전파된다. 스케일링 실험에서 TG는 동일한 GPT‑2 설정 대비 데이터와 파라미터 효율성이 지속적으로 향상되었으며, 스케일링 추정에 따르면 GPT‑2가 TG와 동일한 테스트 손실을 얻으려면 약 5‑8 % 더 많은 데이터와 33‑42 % 더 많은 파라미터가 필요하다. 또한 TG는 부계‑아들 관계 역전 저주 탐지에서 관계 방향 일반화 오류를 감소시킨다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 현재 가장 널리 사용되는 트랜스포머 기반 언어 모델이 “표면적” 토큰 연관성에 과도하게 의존한다는 근본적인 한계를 짚고 있다. 토큰 수준에서만 학습이 이루어지면 모델은 문맥 전체에 걸친 일관된 엔티티·사건 표현을 구축하지 못한다. 결과적으로 “역전 저주”(예: “아버지가 아들을 낳았다”와 “아들이 아버지를 낳았다”를 구분하지 못함)와 같은 관계 일반화 오류가 발생하고, 동일한 의미를 가진 다양한 표현을 학습하기 위해 불필요하게 많은 데이터가 요구된다.

인지과학 연구에서는 인간이 언어를 처리할 때 입력 스트림을 일시적인 표면 형태와는 별도로 “사건” 혹은 “생각”이라는 압축된 의미 단위로 재구성하고, 이를 작업 기억에 보관한다는 점을 강조한다. 이러한 두 단계 처리 메커니즘을 모델에 도입하면, 토큰‑레벨의 세밀한 생성 능력과 동시에 문맥‑레벨의 전역적 일관성을 확보할 수 있다.

Thought Gestalt(TG) 모델은 이러한 아이디어를 구현한다. 핵심 설계는 (1) 토큰과 문장(생각) 표현을 동일한 트랜스포머 블록 스택으로 공유함으로써 파라미터 효율성을 유지하고, (2) 문장 수준의 “생각” 벡터를 작업 기억에 저장하고, (3) 이후 문장의 토큰 생성 시 교차‑어텐션을 통해 과거 생각에 접근한다는 점이다. 특히, 문장 벡터를 기록할 때 계산 그래프를 보존함으로써, 미래 토큰 손실이 과거 문장 벡터를 생성한 파라미터까지 역전파되는 메커니즘은 매우 혁신적이다. 이는 기존의 “단순히 토큰을 예측한다”는 학습 목표를 유지하면서도, 문장‑레벨 표현이 학습 과정에 직접적인 피드백을 받게 만든다.

실험 결과는 두드러진 성능 향상을 보여준다. 동일한 데이터·파라미터 조건에서 GPT‑2 대비 테스트 손실이 지속적으로 낮으며, 스케일링 법칙을 적용했을 때 GPT‑2가 TG와 동등한 성능을 내기 위해서는 약 5‑8 % 더 많은 학습 데이터와 33‑42 % 더 많은 파라미터가 필요하다는 추정이 나온다. 이는 TG가 데이터와 모델 규모에 대한 효율성을 크게 개선했음을 의미한다. 또한, “부계‑아들 역전 저주”와 같은 관계 방향 일반화 테스트에서 TG는 오류율을 현저히 낮춰, 전역적인 엔티티·관계 표현이 실제로 강화되었음을 확인할 수 있다.

하지만 몇 가지 한계도 존재한다. 첫째, TG는 문장을 “생각” 단위로 묶어 처리하므로, 문장 경계가 명확하지 않은 텍스트(예: 대화형 데이터, 스트리밍 문서)에서는 적용이 어려울 수 있다. 둘째, 작업 기억에 저장되는 생각 벡터의 수가 증가하면 메모리·연산 비용이 급격히 늘어나며, 현재 구현에서는 고정된 윈도우 크기로 제한하고 있어 장기 의존성을 완전히 포착하지 못한다. 셋째, 단일 다음‑토큰 손실만을 사용한다는 점은 여전히 토큰‑레벨의 확률 분포에 크게 의존한다는 의미이며, 보다 강력한 구조적 손실(예: 관계 추론 손실)과 결합하면 추가적인 이득을 얻을 가능성이 있다.

향후 연구 방향으로는 (1) 생각 벡터의 동적 관리·삭제 메커니즘을 도입해 무한히 긴 문맥을 효율적으로 다루는 방법, (2) 멀티‑모달 입력(음성·영상)과 결합해 생각 수준의 통합 표현을 학습하는 확장, (3) 토큰‑레벨과 생각‑레벨의 손실을 다중 목표로 최적화해 관계 추론 능력을 더욱 강화하는 방안 등을 제시할 수 있다. 전반적으로 TG 모델은 인간의 인지 메커니즘을 언어 모델에 도입함으로써, 기존 트랜스포머의 한계를 보완하고 효율성과 일반화 능력을 동시에 끌어올린 중요한 시도라 할 수 있다.

📄 논문 본문 발췌 (Excerpt)

## [제목]: 언어 모델링: 생각의 순서로 시퀀스

이 논문은 인간 언어 기능에 대한 인지 과학 연구와 현대 대형 언어 모델(LLM) 사이의 간극을 탐구하며, 언어를 생각의 시퀀스로 모델링하는 새로운 접근법인 Thought Gestalt (TG) 모델을 소개합니다.

인지 과학 관점: 기존 연구는 인간이 언어를 정보 전달 수단보다는 생각의 순서로 인식한다고 제안합니다. 이는 언어가 직선적 코드라기보다는 개념적 표현으로, 이해에는 문맥 해석과 상황 모델 구축이 필요하다는 것을 의미합니다.

현존 LLM 한계: 현대 LLM은 다음 토큰 예측을 최적화하여 놀라운 유창성을 보여주지만, 토큰 중심 훈련 신호는 표면 수준의 통계 패턴을 포착하는 취약점을 가질 수 있습니다. 이는 일반화와 구성적 작업에서 실패로 이어질 수 있으며, 반전 저주는 이러한 문제를 잘 보여줍니다.

TG 모델 소개: TG는 재귀 트랜스포머 아키텍처를 사용하여 언어 수준의 토큰과 문장 수준의 생각을 모두 모델링합니다. 이 모델은 한 문장씩 처리하며, 각 문장의 토큰 정보는 현재 문장만 유지하고 이전 문장 표현은 작업 기억에 저장됩니다. 이러한 설계는 인지적 증거와 일치하는데, 이는 인간이 연속 텍스트 스트림을 분리된 사건으로 조직화하기 때문입니다.

핵심 기능:

  • 문장 게스탈트(Gestalt): 각 문장은 전체 문장을 압축하는 벡터인 게스탈트로 요약됩니다. 이 벡터는 문맥적 요약을 제공하고 추후 참조에 사용됩니다.
  • 작업 기억: TG는 이전 문장 표현을 저장하는 작업 기억을 유지하며, 이는 문맥 정보의 지속적인 접근을 가능하게 합니다.
  • 학습 효율성: TG는 데이터와 매개변수 효율성이 높은 것으로 나타났습니다. GPT-2와 비교하여 더 적은 데이터와 매개변수로 더 나은 성능을 달성합니다.
  • 표현적 견고성: TG는 관계 방향 일반화에서 우수한 성능을 보여주며, 반전 저주에 대한 내성을 입증합니다.

실험 및 결과:

  • 데이터 스케일링: TG는 GPT-2와 비교하여 다양한 데이터 규모에서 더 나은 성능을 보여줍니다.
  • 대조군 분석: TG는 문장 경계를 사용하여 구조적 편향을 유도하는 GPT-2의 변형, 고정된 토큰 창을 사용하는 재귀적 접근법, 그리고 기스트 마스킹과 같은 인-컨텍스트 기법에 비해 우수한 성능을 보입니다.
  • 관계 방향 일반화: TG는 아버지-아들 프로브를 통해 관계 방향 일반화가 더 빠르다는 것을 보여줍니다.
  • 설계 제거 분석: 작업 기억을 통한 역전 흐름, 문장 게스탈트, 그리고 매개변수 공유가 TG의 성능에 필수적이라는 것이 밝혀졌습니다.

결론:

TG 모델은 언어 모델링에 대한 새로운 접근법을 제시하며, 언어를 생각의 순서로 모델링함으로써 더 효과적이고 견고한 표현을 달성합니다. 이 연구는 인간 언어 이해에 대한 통찰력을 제공하고 미래의 LLM 개발에 중요한 기여를 할 것입니다.

📸 추가 이미지 갤러리

30M.png 384d.png 50M.png comp_grad_pies.png dataset_scaling_fixed_span_loss.png dataset_scaling_gisting_loss.png dataset_scaling_sent_bias_loss.png reversal_legend.png reversal_plot_gpt2.png reversal_plot_reverse_targets.png reversal_plot_tg.png reversal_reverse_error_bars.png scaling_loss.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키