역사 문서 디지털화 혁신: VERITAS 모듈형 분석 프레임워크

본 논문은 역사적 아카이브 문서의 디지털화를 문자 수준 전사에 머무르지 않고, 레이아웃 분석·시맨틱 풍부화까지 아우르는 통합 워크플로우를 제시한다. VERITAS( Vision‑Enhanced Reading, Interpretation, and Transcription of Archival Sources)라는 프레임워크는 네 단계(Preprocessing, Extraction, Refinement, Enrichment)로 구성되며, 각 단계는 명확히 정의된 입출력 인터페이스와 표준 포맷을 갖는다. Preprocessing 단계에서는 PDF·TIFF·JPEG 등 다양한 입력을 고해상도 래스터 이미지로 정규화하고, 회전 보정·노이즈 제거·이진화 등 선택적 이미지 향상을 수행한다. 동시에 연구자가 원하는 데이터 구조를 JSON Schema 형태로 선언함으로써, 이후 단계가 어떤 정보를 추출하고 어떻게 저장할지 사전에 정의한다. Extraction 단계는 핵심 변환 단계로, 세 가지 처리 경로를 제공한다. 첫 번째는 경량 특화 VLM으로, 레이아웃 감지·텍스트 로컬라이제이션·읽기 순서 결정에 최적화돼 빠른 전사와 높은 정확도를 제공한다. 두 번째는 범용 VLM으로, 자연어 지시를 받아 자유형 추출이 가능해 사용자 정의 메타데이터(예: 인용구 출처, 인물 관계)까지 캡처한다. 세 번째는 하이브리드 방식으로, 특화 VLM이 기본 전사를 수행하고, 이후 범용 VLM·LLM이 스키마‑외 정보를 보강한다. 이 설계는 연산 자원과 정확도 요구 사이의 트레이드오프를 사용자가 직접 조정하도록 허용한다. Refinement 단계에서는 페이지 단위 결과를 문서 전체 수준으로 통합한다. 하이픈 복원·인용 부호 정규화·스키마 검증을 통한 전처리와, 페이지 경계 넘는 텍스트 연결·메타데이터 전파를 통한 Inter‑Page Resolution을 수행한다. 최종적으로 모든 페이지 데이터를 하나의 구조화된 문서 객체로 집계한다. Enrichment 단계에서는 구조화된 데이터에 외부 지식베이스와 연결해 엔티티 링크를 수행하고, LLM을 활용해 주제 분류·감성 분석·사건 추출·시간 추론 등 고차원 의미 추론을 수행한다. 결과는 TEI‑XML, CSV, 벡터 데이터베이스 등 다양한 포맷으로 인덱싱돼 디지털 인문학 인프라와 바로 연동된다. 실험은 이탈리아 르네상스 연대기 ‘Storia di Milano’(1,600페이지)를 대상으로 진행되었다. 상용 OCR 엔진과 비교했을 때 VERITAS는 상대적 단어 오류율(WER)을 67.6% 감소시켰으며, 수동 교정 시간을 포함한 전체 처리 시간은 3배 가량 단축되었다. 또한, 완전 자동화된 전사·풍부화 결과물을 Retrieval‑Augmented Generation(RAG) 시스템에 입력해 역사적 질의에 답변하도록 테스트했을 때, 정확하고 풍부한 응답을 생성함으로써 디지털화된 자료가 실제 연구에 바로 활용될 수 있음을 입증했다. 본 연구는 기존 OCR‑D 프레임워크가 전사·레이아웃 감지에만 초점을 맞추는 한계를 극복하고, 모델‑중립·스키마‑드리븐·VLM·LLM 융합이라는 세 가지 핵심 원칙을 통해 대규모 역사 문서 컬렉션을 빠르고 정확하게 디지털화하고, 바로 의미론적 분석·질의에 활용할 수 있는 실용적인 솔루션을 제공한다. 이는 디지털 인문학 연구자, 문화유산 보존 기관, 그리고 AI 기반 문서 처리 기술 개발자 모두에게 중요한 참고 모델이 될 것이다.

역사 문서 디지털화 혁신: VERITAS 모듈형 분석 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기