중세 영문 서류 연대 추정의 통계적 접근

이 논문은 10세기부터 14세기 초까지 영국에서 작성된 라틴어 차터 10,000여 건 중 약 1백만 건이 연대가 누락된 문제를 해결하고자, 단어·구절 사용 빈도의 시간적 변화를 이용한 통계 모델과 문서 간 거리 측정 기법을 적용한 자동 연대 추정 방법을 제안한다. DEEDS 데이터셋(3353건의 정확히 연대가 알려진 차터)을 활용해 k‑최근접 이웃(kNN), 최대 유병도(MP), 비모수적 분위수 회귀 세 가지 방법을 설계·평가하였다.

저자: Gelila Tilahun, Andrey Feuerverger, Michael Gervers

중세 영문 서류 연대 추정의 통계적 접근
본 논문은 10세기부터 14세기 초까지 영국에서 작성된 라틴어 차터, 즉 부동산 권리와 소유권 이전을 기록한 문서들의 연대 추정 문제를 다룬다. 윌리엄 정복자(1066년) 이후 행정 절차가 바뀌면서 약 100만 건에 달하는 차터가 연대 없이 보존되었으며, 이는 중세 영국 사회·경제·정치사를 연구하는 데 큰 장애물이다. 저자들은 이러한 미연대 차터를 자동으로 연대화하기 위해 통계적·계산적 방법을 개발하고, 토론된 방법들의 성능을 DEEDS(Documents of Early England Data Set)라는 공개 데이터셋을 이용해 검증한다. 먼저 데이터셋을 소개한다. DEEDS는 토론토 대학이 구축한 라틴어 차터 컬렉션으로, 현재 약 10,000건이 수집돼 있으나 연구에 사용된 부분은 3,353건의 정확히 연대가 알려진 차터이다. 이 차터들은 연대가 내부 표식(예: 왕조 연도)이나 인물·지명 등으로 추정되었으며, 라틴어 원문을 디지털화하고 전처리했다. 전처리 과정에서는 라틴어 철자 변형을 통일하고, 구두점과 숫자를 특수 토큰으로 변환했으며, 대소문자를 구분하지 않도록 정규화했다. 결과적으로 50,006개의 고유 단어가 추출됐으며, 그 중 56%가 한 번만 등장하는 희귀어(하팍스 레마)였다. 문서 길이는 평균 237단어(표준편차 46)이며, 가장 짧은 문서는 15단어, 가장 긴 문서는 2,054단어에 달한다. 연대 추정을 위한 세 가지 통계 모델을 제시한다. 첫 번째는 k‑최근접 이웃(kNN) 방법이다. 각 차터를 단어 빈도 벡터(TF‑IDF)로 표현하고, 코사인 거리, 유클리드 거리, Jaccard 거리 등 다양한 거리 함수를 시험한다. 교차 검증을 통해 최적의 k값과 거리 함수를 선택하고, 훈련 집합에서 가장 가까운 k개의 연대 평균을 예측값으로 사용한다. 이 방법은 구현이 간단하고 해석이 직관적이지만, 고차원 희소 벡터에서 거리 측정의 불안정성이 문제될 수 있다. 두 번째는 최대 유병도(Maximum Prevalence, MP) 방법이다. 이는 각 단어·구절이 특정 연도에 등장할 확률을 커널 스무딩과 로컬 로그우도 추정으로 모델링한다. 구체적으로, 연도별 단어 출현 빈도를 커널 함수(가우시안)로 부드럽게 추정하고, 문서 전체의 로그우도를 해당 연도에 대해 합산한다. 최종적으로 로그우도가 최대가 되는 연도를 차터의 추정 연대로 채택한다. 이 접근법은 시간에 따른 어휘 변동을 직접 반영하므로, 라틴어와 같이 어휘 변화가 뚜렷한 시기에 높은 정확도를 보인다. 밴드위스 선택은 5‑fold 교차 검증으로 최적화하였다. 세 번째는 비모수적 분위수 회귀 방법이다. 먼저 차터와 훈련 차터 간의 거리(예: 코사인 거리)를 계산하고, 이 거리와 훈련 차터의 실제 연도를 산점도로 만든다. 이후 로컬 회귀(LOESS) 혹은 스플라인을 이용해 거리‑연도 관계를 추정하고, 특정 분위수(예: 5% 또는 10%)에 해당하는 연도를 추정값으로 선택한다. 이 방법은 거리와 연도 사이의 비선형 관계를 유연하게 포착하고, 이상치에 대한 민감도를 낮춘다. 각 방법에 대해 실험을 수행하였다. 3,353건의 차터를 70% 훈련, 30% 테스트로 무작위 분할하고, 10번 반복한 평균 절대 오차(MAE)와 평균 제곱 오차(MSE)를 측정했다. 결과적으로 MP 방법이 평균 절대 오차 27년, kNN이 34년, 분위수 회귀가 31년으로, MP가 가장 우수한 성능을 보였다. 또한, 연도별 오류 분포를 분석한 결과, 12세기 중반에서 13세기 초 사이에 오류가 가장 작았으며, 이는 해당 시기의 문서가 상대적으로 많이 남아 있어 모델 학습에 충분한 정보를 제공했기 때문이다. 반면, 11세기 초와 14세기 말에는 문서 수가 적어 오차가 다소 증가하였다. 논문은 또한 모델 선택과 튜닝 과정에서 교차 검증을 통한 밴드위스와 k값 최적화, 그리고 추정 연대에 대한 불확실성을 베이지안 신뢰구간으로 제공하는 방안을 제시한다. 이를 통해 역사학자는 단일 추정값이 아니라 신뢰 구간을 통해 연대 추정의 불확실성을 평가할 수 있다. 마지막으로 저자들은 본 연구가 디지털 인문학, 시간적 언어 모델링, 정보 검색 분야와 연결될 수 있음을 강조한다. 기존 연구(예: de Jong et al., 2005; Kanhabua & Norvag, 2008)와 비교해, 라틴어 차터라는 특수한 도메인에 비모수적 방법과 최대 유병도 모델을 적용한 점이 새로운 기여이다. 향후 연구 방향으로는 더 큰 규모의 미연대 차터에 대한 대규모 적용, 다중 언어(라틴어 외 현지어) 혼합 모델 개발, 그리고 문서 구조(서문·조항)와 메타데이터(서명·인장) 활용을 통한 복합 모델링을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기