언어 형식화와 리처드‑베리 역설의 모순
리처드‑베리 역설을 튜링 기계의 서술 복잡도와 결합해, 모든 자연어 문장을 완전히 형식화할 경우 “복잡도가 n 이상인 최초의 텍스트”라는 문장이 스스로 모순을 일으킨다는 논증을 제시한다. 이를 통해 자연어의 완전한 계산적 형식화는 불가능함을 주장한다.
저자: Stefano Crespi Reghizzi
이 논문은 20세기 초 러셀·화이트헤드가 제시한 리처드‑베리 역설을 현대 컴퓨터 과학의 복잡도 이론과 연결시켜, 자연어를 완전하게 형식화하려는 시도가 내재된 모순을 내포하고 있음을 증명한다. 먼저, 저자는 “형식 의미론”이란 개념의 역사적 배경을 간략히 소개한다. 프레게와 러셀의 논리학, 타르스키·카르납의 언어 형식화 연구, 그리고 1970년대 리처드 몬타게의 언어학적 접근을 언급하며, 현재 인공지능·자연어 처리 분야에서 형식 의미론이 차지하는 위치를 짚는다.
그 다음, 리처드‑베리 역설을 재정의한다. 원래 역설은 “20단어 이하로 정의될 수 없는 가장 작은 자연수”라는 정의가 스스로 모순을 일으키는 점에 있다. 이를 프로그램적 관점에서 해석하기 위해, 저자는 “정의”를 해당 수를 계산할 수 있는 가장 짧은 튜링 기계(또는 프로그램)로 치환한다. 이때 “가장 짧은 프로그램”이라는 개념은 콜모고로프‑키틴 복잡도와 동일시된다.
논문의 핵심은 두 가지 가정이다. 첫 번째는 **무한성 가정**으로, 임의의 정수 n에 대해 복잡도가 n보다 큰 텍스트가 존재한다는 주장이다. 이는 자연어가 무한히 다양한 구문·의미 구조를 포함한다는 직관에 기반한다. 두 번째는 **로그 복잡도 가정**이다. “복잡도가 n인 최초 텍스트”를 기술하는 문장 t(n)은 두 부분으로 구성된다. 하나는 n에 무관한 고정된 서술이며, 다른 하나는 n 자체를 표현하는 부분이다. 정수 n을 이진수 등 위치표현법으로 인코딩하면 필요한 비트 수는 ⌈log₂ n⌉이므로, t(n)의 전체 복잡도는 t(20)의 복잡도에 로그 n 정도만 추가된다.
이제 “복잡도가 n 이상인 최초 텍스트”라는 문장을 t(n)이라 두고, 두 경우를 분석한다.
**첫 번째 경우**: 해당 최초 텍스트가 존재한다는 가정 하에, t(20)의 복잡도가 20보다 작다면 t(20) 자체가 “복잡도가 20 이상인 최초 텍스트”라는 정의를 만족시키지 못한다. 즉, 정의가 스스로 부정된다.
반대로 복잡도가 k≥20이라면, 로그 복잡도 가정에 의해 충분히 큰 K>k를 선택할 수 있다. 그러면 t(K)의 복잡도는 K보다 작아지므로, “복잡도가 K 이상인 최초 텍스트”라는 정의가 또다시 모순을 일으킨다.
**두 번째 경우**: 최초 텍스트가 존재하지 않는다고 가정하면, 모든 텍스트의 복잡도가 20 미만이어야 한다. 그러나 무한성 가정에 의해 복잡도가 임의로 큰 텍스트가 존재하므로 이 가정도 모순된다.
따라서, 텍스트를 복잡도 순으로 정렬하고 “복잡도가 n 이상인 최초 텍스트”를 지정하려는 시도는 리처드‑베리 역설과 동일한 자기참조적 모순을 발생시킨다. 이는 자연어를 완전하게 튜링 기계 혹은 등가의 계산 모델로 형식화하는 것이 논리적으로 불가능함을 의미한다. 논문은 이러한 결과가 형식 의미론 연구에 내재된 한계임을 강조하고, 완전한 언어 형식화 목표가 실현 불가능함을 철학적·수학적 관점에서 재조명한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기