언어 구조의 멘제라트‑알트만 법칙을 통계역학으로 풀다
본 논문은 멘제라트‑알트만(MA) 법칙을 통계역학적 관점에서 재해석하여, 단어 길이와 에너지를 연결하고 구조적 퇴화도(ω)를 도입한 새로운 모델인 SMMA(Statistical Mechanical Menzerath‑Altmann) 모델을 제시한다. SMMA는 기존 MA의 세 파라미터를 구조 독립적인 네 파라미터로 전환하며, 물리적 의미를 부여해 언어 조직의 열역학적 특성을 정량화한다. 두 개의 텍스트 코퍼스를 이용한 실증 분석에서 SMMA가 M…
저자: Sertac Eroglu
멘제라트‑알트만(Menzerath‑Altmann, MA) 법칙은 언어학뿐 아니라 다양한 자연 현상에서 “구성체가 길어질수록 그 구성요소는 짧아진다”는 규칙성을 수학적으로 표현한다. 전통적인 MA 식 y = A x^{b} e^{‑c x}는 세 개의 경험적 파라미터(A, b, c)를 필요로 하는데, 이 파라미터들은 서로 다른 언어·코퍼스 간 비교 시 구조적 차이를 반영하지 못해 해석이 모호했다. 이를 극복하고자 저자는 통계역학의 비상호작용 입자 모델을 언어 조직에 빗대어 새로운 모델을 제안한다.
먼저 텍스트 전체를 N개의 고유어(distinct words, DW)로 간주하고, 각 DW의 문자 수(l_i)를 입자의 에너지 ε_i와 동일시한다. 이때 가능한 DW 조합 수는 알파벳 크기 ω에 따라 i · ω^{i} 로 표현되는 퇴화도(g_i)로 정의된다. 실제 언어에서는 (1) 문법·어휘 규칙에 의해 일부 조합이 금지되고, (2) 최소 노력 원칙에 의해 짧은 단어가 선호되는 두 상반된 효과가 동시에 작용한다. 이를 반영하기 위해 퇴화도를 l_i^{α} · ω^{i} 형태로 가중치화한다. 여기서 α는 두 효과의 상대적 강도를 나타내는 새로운 파라미터이며, α=0이면 순수 퇴화도만 남는다.
통계역학적 접근은 미시상태 수 Ω = ∏_i (g_i)^{n_i}/n_i! 로 시작한다. Stirling 근사를 적용해 ln Ω를 최대화하고, 라그랑주 승수 φ(총 DW 수 보존)와 θ(총 길이 보존)를 도입한다. 최적화 과정에서 얻어지는 점유수 n_i는
n_i = ω^{l_i} · l_i^{α} · e^{‑θ l_i − φ}
이라는 식으로, 이는 확률밀도 p(l) = A l^{α} e^{‑θ l}와 동일한 형태가 된다. 여기서 A = e^{‑φ}·ω^{l}이며, 기존 MA 식의 파라미터와 다음과 같이 대응된다:
b = α, c = θ, A = e^{‑φ}·ω^{l}.
따라서 SMMA(Statistical Mechanical Menzerath‑Altmann) 모델은 네 개의 파라미터(ω, θ, α, φ)로 구성되지만, ω는 언어 고유의 구조적 입력 파라미터(알파벳 수)로 사전에 지정 가능하다. 결과적으로 실제 자유 파라미터는 세 개이며, 이는 기존 MA와 동일한 자유도이면서 물리적 의미를 갖는다. θ는 ‘역온도’에 해당해 언어 조직의 엔트로피와 자유에너지 계산에 활용될 수 있고, α는 퇴화도 가중치에 의해 결정되는 구조적 복잡성을 나타낸다.
실증 검증을 위해 영어와 터키어 두 개의 대규모 코퍼스를 사용하였다. 각 코퍼스에서 DW 길이 분포를 추정하고, MA와 SMMA 모델을 동시에 피팅했다. 두 모델 모두 동일한 적합도를 보였으며, SMMA에서 추정된 θ와 α 값은 각각 언어별 최소 노력 효과와 퇴화도 가중치 효과를 반영한다는 해석이 가능했다. 특히, ω를 영어(26)와 터키어(29) 알파벳 수로 설정함으로써, 두 언어 간 파라미터 차이가 구조적 차이(알파벳 크기)와 동등하게 설명될 수 있음을 확인하였다.
이론적 의의는 다음과 같다. 첫째, MA 법칙을 물리학의 기본 개념(에너지, 온도, 퇴화도)과 연결함으로써 파라미터에 대한 명확한 해석을 제공한다. 둘째, 구조적 퇴화도 ω를 통해 다양한 분야(생물학적 서열, 음악, 코드 등)에도 동일한 프레임워크를 적용할 수 있다. 예를 들어, 단백질 서열에서는 아미노산 종류 수(20)를 ω로 두고, 서열 길이를 에너지에 대응시키면 SMMA 모델을 통해 서열 복잡성과 진화적 압력을 정량화할 수 있다. 셋째, θ와 α를 이용해 ‘언어 조직의 엔트로피’와 ‘자유에너지’를 계산함으로써, 언어 진화·변화 과정을 물리적 관점에서 분석할 수 있는 기반을 마련한다.
결론적으로, 저자는 MA 법칙을 통계역학적으로 재해석한 SMMA 모델을 제시하고, 이를 통해 파라미터의 물리적 의미를 부여함으로써 언어 조직뿐 아니라 다양한 복합 시스템의 구조적 규칙성을 보다 깊이 이해할 수 있는 새로운 도구를 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기