언어 환경 설계가 인공지능 사고에 미치는 영향

본 논문은 인간이 다양한 감각·인지 채널을 통해 사고하고 언어는 그 결과를 표현하는 부수적 수단이라는 점에서 출발한다. 반면 현재의 대형 언어 모델(LLM)은 토큰 스트림 자체가 사고의 전부이며, 따라서 사용 가능한 언어가 곧 사고의 한계가 된다. 저자는 이를 ‘Umwelt’ 개념에 빗대어, LLM이 사고할 수 있는 언어적 세계를 설계·조작하는 “Umwelt Engineering”을 제3의 설계 층으로 제안한다. 이 층은 프롬프트 엔지니어링(무엇을 물어볼지)과 컨텍스트 엔지니어링(무엇을 알게 할지) 위에 위치하며, 모델이 “무엇을 생각할 수 있는가”를 결정한다. 이론적 배경으로는 언어 상대성(Sapir‑Whorf) 가설이 LLM에 적용된 사례, 기존 연구에서 언어 구조가 추론 패턴에 미치는 영향, 그리고 인공적인 추론 언어(ORION, Sketch‑of‑Thought 등)의 성공 사례를 제시한다. 또한 E‑Prime, General Semantics, Rheomode 등 8가지 전통적 언어 개혁 전통을 조사해, 각각이 특정 인지 오류(정체성 주장, 과잉 일반화, 실체 편향 등)를 교정하려는 목표를 가지고 있음을 밝힌다. 실험 1에서는 세 가지 최신 LLM(Claude Haiku 4.5, GPT‑4o‑mini, Gemini 2.5 Flash Lite)에 두 가지 어휘 제약을 적용했다. ‘No‑Have’는 “to have”라는 소유 동사를 배제하고, ‘E‑Prime’은 “to be”라는 존재 동사를 배제한다. 실험은 윤리적 판단, 분류, 인식 보정, 인과 추론 등 7가지 과업을 4,470번 수행했다. 결과는 ‘No‑Have’가 모든 모델에서 윤리성(19.1%p), 분류 정확도(6.5%p), epistemic calibration(7.4%p)을 일관되게 향상시켰으며, 제약 준수율도 92.8%에 달했다는 점을 강조한다. 반면 ‘E‑Prime’는 모델에 따라 효과가 크게 달라졌다. Gemini에서는 윤리 성능이 42.3%p 급증했지만, GPT‑4o‑mini에서는 epistemic calibration이 27.5%p 감소했다. 모델 간 효과 상관계수가 –0.75에 이르는 등, 각 모델이 학습 단계에서 형성한 고유한 ‘Umwelt’와 제약이 상호작용한다는 증거를 제공한다. 실험 2는 16개의 언어 제약 에이전트를 17개의 디버깅 문제에 투입했다. 각 에이전트는 제어군보다 개별적으로 우수했으며, 특히 ‘counterfactual agent’라 명명된 특정 제약 에이전트가 가장 어려운 버그를 찾아냈다. 3‑agent 앙상블을 구성했을 때, 이 조합은 100% 정답 커버리지를 달성했으며, 동일한 성과를 내는 무작위 3‑agent 조합은 8%에 불과했다. 이는 언어적 다양성이 집단 지능을 증폭시키는 ‘cognitive diversification’ 메커니즘을 실증한다. 논문의 주요 메커니즘은 두 가지다. 첫째, ‘cognitive restructuring’—언어적 기본 틀을 제거함으로써 모델이 보다 명시적이고 단계적인 추론 과정을 채택하게 된다. ‘No‑Have’가 가장 일관된 재구성을 이끌어냈다. 둘째, ‘cognitive diversification’—다양한 제약이 모델 내부의 서로 다른 잠재 용량을 활성화한다. 이는 앙상블 성능 향상으로 구체화된다. 한계점으로는 제약 프롬프트와 동일한 복잡성을 가진 활성 대조군이 없었다는 점을 들며, 제약 자체가 아닌 프롬프트 설계 복잡도가 성능에 미치는 영향을 완전히 배제하지 못한다는 점을 인정한다. 그럼에도 불구하고, 언어적 매개체가 사고 자체를 형성한다는 근본적인 주장과, 이를 설계 변수로 활용할 수 있다는 실증적 증거는 AI 에이전트 설계 패러다임에 새로운 차원을 제시한다. 향후 연구는 보다 정교한 제약 설계, 다중 모달리티와의 통합, 그리고 인간-기계 협업에서의 Umwelt Engineering 적용을 탐구해야 할 방향으로 제시한다.

언어 환경 설계가 인공지능 사고에 미치는 영향

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기