아랍어 형태소와 토크나이저·LLM 관계 분석

본 논문은 아랍어의 비연결형 어근‑패턴 구조를 기준으로, 다양한 토크나이저와 대형 언어 모델(LLM)이 형태소 정보를 얼마나 정확히 반영하고, 새로운 어근‑패턴 조합을 생성할 수 있는지를 체계적으로 평가한다. 토크나이저의 형태소 정렬 점수와 실제 LLM의 생산성 점수 사이에 일관된 상관관계가 없음을 밝혀, 형태소 기반 토크나이징이 반드시 성능 향상을 보장하지 않음을 시사한다.

저자: Yara Alakeel, Chatrine Qwaider, Hanan Aldarmaki

아랍어 형태소와 토크나이저·LLM 관계 분석
본 논문은 아랍어의 비연결형 어근‑패턴 형태소 체계를 활용해, 최신 대형 언어 모델(LLM)과 그 토크나이저가 형태소 정보를 얼마나 정확히 반영하고, 새로운 어근‑패턴 조합을 생성할 수 있는지를 종합적으로 분석한다. 연구는 크게 두 부분으로 나뉜다. 첫 번째는 다양한 토크나이저가 금본문 형태소 분할과 얼마나 일치하는지를 정량화하는 평가이며, 두 번째는 LLM이 실제로 어근‑패턴 규칙을 생산적으로 적용할 수 있는지를 검증하는 생산성 테스트이다. **1. 토크나이저 형태소 정렬 평가** 연구자는 두 개의 아랍어 코퍼스, 즉 현대 표준 아랍어를 포함한 ATB3와 방언을 포함한 BOLT를 금본문 형태소 데이터로 사용한다. 이 코퍼스에서 diacritics, punctuation, 숫자, 영문자를 제거해 순수 아랍어 어휘만 남겼으며, 총 12,626문장(ATB3)과 19,994문장(BOLT)을 대상으로 토크나이저를 평가했다. 토크나이저는 GPT‑4, GPT‑4o, LLaMA‑3, Qwen‑3, Cohere, Fanar, ALLaM 등 7개 모델에 적용되었으며, Fanar만이 MorphoBPE라는 형태소 인식 병합 규칙을 적용한다. 정량적 지표는 다음과 같다. (1) **Fertility** – 단어당 평균 토큰 수; 낮을수록 압축 효율이 높다. (2) **Boundary Precision/Recall** – 금본문 형태소 경계와 토크나이저 경계의 일치 정도; F1로 종합. (3) **Morpheme F1** – 전체 형태소 스팬이 정확히 일치하는 비율; 형태소 단위 정확성을 평가한다. (4) **MCR (Morpheme Coverage Rate)** – 금본문 형태소가 토큰 내부에 온전히 포함되는 비율; 형태소 무결성을 측정한다. 결과는 토크나이저마다 큰 차이를 보였다. GPT‑4는 높은 Fertility(≈1.3)와 낮은 MCR(≈0.42)를 보였지만, Boundary F1은 0.71 수준으로 중간 정도였다. 반면 Fanar는 Fertility가 0.95에 가깝고 MCR이 0.78로 가장 높은 형태소 무결성을 유지했지만, Boundary F1은 0.68에 불과했다. 즉, 토크나이저가 형태소 경계를 정확히 맞추는 정도와 토큰 압축 효율 사이에 트레이드오프가 존재한다. **2. 형태소 생산성 테스트** LLM이 실제로 어근‑패턴 규칙을 적용할 수 있는지를 평가하기 위해, 연구자는 두 종류의 데이터셋을 구축했다. 첫 번째는 실제 어근‑패턴 쌍을 포함한 130개의 실제 단어(13개 패턴 × 10개 어근)이며, 각 어근‑패턴 조합은 무접사 형태와 두 개의 접사 형태(접두사·접미사)로 변형된다. 두 번째는 20개의 인위적 nonce 어근(실제 어근이 아니며, 원어민 검증을 거쳐 의미 없는 문자열)과 5개의 패턴을 조합해 100개의 새로운 형태를 만든다. 평가 방식은 프롬프트 기반으로, 0‑shot과 1‑shot 상황에서 모델에게 “어근과 패턴을 주면 해당 형태를 생성하라”는 명령을 내렸다. 출력은 정답과 정확히 일치하는지, 혹은 형태소 규칙을 위반했는지 여부를 자동화된 스크립트와 인간 평가자가 교차 검증했다. 주요 결과는 다음과 같다. GPT‑4는 전체 정확도 84%(실제 어근)와 78%(nonce 어근)로 가장 높은 성능을 보였으며, 특히 1‑shot 상황에서 정확도가 6~8% 상승했다. GPT‑4o와 LLaMA‑3도 비슷한 수준이었지만, Qwen‑3과 Cohere는 nonce 어근에서 55% 이하로 급격히 떨어졌다. Fanar와 ALLaM은 형태소 정렬이 우수함에도 불구하고, nonce 어근에 대한 정확도가 60% 미만으로, 토크나이저의 형태소 정렬이 생산성에 직접적인 기여를 하지 않음을 확인했다. **3. 논의와 시사점** 이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 현대 LLM은 토큰 수준의 정보보다 내부 임베딩과 self‑attention 메커니즘을 통해 비연결형 어근‑패턴 규칙을 암묵적으로 학습한다는 점이다. 즉, 토크나이저가 형태소 경계를 정확히 맞추더라도, 모델이 이를 활용해 일반화하는 메커니즘이 별도로 설계되지 않으면 생산성 향상이 제한된다. 둘째, 토크나이저 설계 시 형태소 정렬을 최우선 목표로 삼는 기존 패러다임은 재고가 필요하다. 형태소 정렬은 메모리·연산 효율성 측면에서는 유용하지만, downstream 작업에서 형태소‑생산성을 보장하지 않는다. 연구는 또한 평가 방법론에서도 혁신을 제시한다. 기존의 Morphological Alignment Score(MAS)와 MorphScore는 부분 일치와 경계 오류를 혼합해 해석이 어려웠지만, 본 논문은 Boundary F1, Morpheme F1, MCR을 도입해 토크나이저‑형태소 정렬을 다층적으로 측정한다. 이러한 지표 체계는 향후 다른 비연결형 언어(예: 히브리어, 에티오피아어)의 토크나이저 평가에도 적용 가능하다. **4. 한계와 향후 연구** 본 연구는 영어 프롬프트와 아랍어 프롬프트를 모두 사용했지만, 프롬프트 설계가 모델 성능에 미치는 영향을 완전히 통제하지는 못했다. 또한, 토크나이저와 모델을 독립적으로 평가했기 때문에, 토크나이저와 모델이 공동 학습된 경우(예: 토크나이저를 사전 학습 단계에서 함께 최적화)에는 다른 결과가 나올 가능성이 있다. 향후 연구는 (1) 토크나이저와 모델을 공동 최적화하는 방법, (2) 형태소‑인식 레이어를 명시적으로 삽입해 생산성을 향상시키는 아키텍처, (3) 다른 비연결형 언어에 대한 교차언어 비교를 통해 일반화 가능성을 검증하는 방향으로 진행될 수 있다. **결론** 본 논문은 “형태소‑정렬 ≠ 형태소‑생산성”이라는 핵심 결론을 제시함으로써, 토크나이저 설계와 LLM 성능 사이의 관계에 대한 기존 인식을 재검토한다. 형태소‑정렬이 높은 토크나이저가 반드시 높은 형태소 생산성을 보장하지 않으며, 실제 모델이 비연결형 어근‑패턴 규칙을 학습하고 일반화하는 메커니즘은 토큰 수준의 정보보다 모델 내부 구조에 더 크게 의존한다는 점을 강조한다. 이는 향후 아랍어와 같은 형태소가 풍부한 언어를 위한 LLM 개발 및 토크나이저 설계에 중요한 지침을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기