KH FUNSD: 캄보디아어 비즈니스 문서 이해를 위한 계층형 데이터셋

읽는 시간: 9 분
...

📝 원문 정보

  • Title: KH-FUNSD: A Hierarchical and Fine-Grained Layout Analysis Dataset for Low-Resource Khmer Business Document
  • ArXiv ID: 2512.11849
  • 발행일: 2025-12-04
  • 저자: Nimol Thuon, Jun Du

📝 초록 (Abstract)

자동 문서 레이아웃 분석은 저자원, 비라틴 스크립트에 대한 주요 과제로 남아 있습니다. 캄보디아에서 매일 1700만 명 이상의 사람들이 사용하는 언어인 Khmer는 문서 AI 도구 개발에서 거의 주목받지 못했습니다. 특히 공공 행정과 사기업 모두에게 중요한 비즈니스 문서에 대한 전문 자원 부족이 심각한 문제입니다. 이 간극을 해결하기 위해, 우리는 캄보디아어 양식 문서 이해를 위한 첫 번째 공개 계층형 데이터셋인 KH-FUNSD를 제시합니다. 이 데이터셋은 영수증, 발행서 및 견적서를 포함하고 있습니다. 우리의 주석 프레임워크는 세 가지 수준의 설계를 특징으로 합니다: (1) 헤더, 양식 필드, 바닥글 등의 핵심 존을 나누는 영역 탐지; (2) 질문, 답변, 헤더 등과 같은 주요 엔티티와 그 관계를 구분하는 FUNSD 스타일의 주석; 그리고 (3) 필드 레이블, 값, 헤더, 바닥글 및 기호와 같은 특정 세미어틱 역할을 할당하는 미세한 분류. 이 다수준 접근 방식은 포괄적인 레이아웃 분석과 정확한 정보 추출을 지원합니다. 우리는 몇 가지 선두 모델을 벤치마킹하여 캄보디아어 비즈니스 문서에 대한 첫 번째 기초 결과를 제공하고, 비라틴 저자원 스크립트가 제기하는 고유한 과제에 대해 논의합니다. KH-FUNSD 데이터셋과 문서는 https://github.com/back-kh/KH-FUNSD에서 이용 가능합니다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1

Paper Analysis: KH-FUNSD

Introduction and Background

The paper introduces KH-FUNSD, the first publicly available hierarchical dataset for understanding Cambodian business documents. The authors highlight that structured information extraction is crucial for digitizing form-like documents, which can enhance data entry efficiency, large-scale digitalization, business analytics, and regulatory compliance. However, existing deep learning models like LayoutLM and its successors have primarily been developed for high-resource languages (Latin script), leaving non-Latin and low-resource scripts underrepresented.

Cambodian is the official language of Cambodia and is widely used by over 17 million people. With rapid digitalization in Cambodia, there is an increasing demand for Cambodian AI tools and resources. Business documents such as receipts, invoices, and citations play a critical role in commerce, public administration, taxation, and record-keeping systems but are currently lacking advanced document analysis technologies.

Dataset Creation

The authors address these challenges by introducing KH-FUNSD, the first open hierarchical dataset for understanding Cambodian business documents. The annotation framework consists of three levels: region-level detection, FUNSD-style entity linking, and fine-grained classification, capturing both structural and semantic aspects of business documents.

Key contributions include:

  • KH-FUNSD Introduction: A comprehensive annotated dataset with region annotations, FUNSD-style Q&A, and hierarchical annotations.
  • Baseline Evaluation: Provides baseline evaluations using state-of-the-art models (YOLO, DETR, LayoutLM) for region detection and semantic role prediction.
  • Open Access: The dataset and guidelines are made publicly available to support further research and development.

Methodology

The creation process of KH-FUNSD involves collecting printed and scanned receipts, invoices, and citations from various sources. This includes open-access repositories, government or business resources, and synthetic samples replicated from true business forms. Sensitive information such as company names, addresses, phone numbers, and financial details are anonymized.

The dataset creation process consists of:

  1. Data Source Collection: Gathering Cambodian business documents from diverse sources.
  2. Preprocessing: Digitizing all documents in high-resolution image format (minimum 300dpi) with steps like distortion correction, cropping, noise reduction, and contrast enhancement to optimize document clarity.
  3. OCR & Annotation: Using open-source OCR tools for text extraction and manual annotation to ensure bounding box accuracy and overall text integrity.
  4. Annotation Protocol: A three-step hierarchical protocol is used to capture layout structure and semantic details. The first step segments documents into major meaningful areas (header, form fields, footer). The second step labels entities following the FUNSD benchmark. The third step involves fine-grained classification, assigning precise semantic roles to each text segment.
  5. Annotation Quality Assurance: Ensuring annotation quality through a strict multi-layer review protocol with Cambodian student researchers and Chinese collaborators for technical supervision.

Evaluation

The dataset includes structured JSON annotation files for each document, encoding layout and semantic information across all annotation levels. Three main benchmark tasks are defined:

  • Region Detection: Predicting and classifying bounding boxes of major layout areas.
  • FUNSD-style Q&A: Identifying and classifying entity types (header, question, answer) and modeling relationships between questions and answers.
  • Fine-grained Classification: Assigning precise semantic roles to each text segment.

Models like YOLOv8, DETR, LayoutLMv1-v3 are used for evaluation. The dataset is split into training, validation, and test sets with normalization, contrast adjustment, and distortion correction applied to images. Training uses cross-entropy loss and Adam optimizer on NVIDIA RTX 3090 Ti GPUs.

Results

DETR achieves the highest performance in region detection (86.6% mAP50), while LayoutLMv3 shows superior results in entity classification and fine-grained classification, particularly for headers, questions, answers, and complex text segments.

Challenges and Future Work

The creation of KH-FUNSD involved practical and technical challenges such as strict annotation guidelines, iterative tool development, and resolving conflicts. Despite these, deep learning models still show performance gaps, especially in handling complex table areas, ambiguous or visually similar labels, and intricate Cambodian phrases.

Future work includes:

  • Data Expansion: Adding more document types and layouts.
  • Continuous Learning: Exploring advanced model architectures for end-to-end document segmentation.
  • Visual Question Answering (VQA): Introducing VQA tasks to enhance semantic analysis.
  • Relation Extraction: Identifying and modeling relationships within documents.

Conclusion

KH-FUNSD aims to promote research progress in low-resource, non-Latin document AI. The multi-level annotation scheme and comprehensive evaluation protocols provide a strong foundation for future studies. Future plans include expanding the dataset, developing end-to-end models, and applying advanced document understanding tasks like VQA and relation extraction.

This paper is significant as it addresses the gap in Cambodian business document analysis and provides a valuable resource for researchers working on low-resource languages and non-Latin scripts.

📄 논문 본문 발췌 (Excerpt)

## KH-FUNSD: 캄보디아어 비즈니스 문서 이해를 위한 최초 공개 계층형 데이터셋

추출된 구조화된 정보는 양식과 유사한 문서를 디지털 전환하는 데 필수적입니다.[1], [2], [3]. 자동 문서 레이아웃 분석은 영수증 및 청구서와 같은 문서의 공간적 및 의미적 구조를 이해하여 효율적인 데이터 입력, 대규모 디지털화, 비즈니스 분석 및 규제 준수를 가능하게 합니다. 최근 레이아웃 인식 딥러닝 모델인 LayoutLM과 그 후속 모델들이 이 분야에서 성능을 크게 향상시켰습니다.[4], [5], [6]. 그러나 이러한 모델과 관련 벤치마크는 주로 고자원 언어(라틴 스크립트)에 개발되어 비라틴 및 저자원 스크립트를 대표하지 못합니다.

캄보디아어는 캄보디아가 일상적으로 사용하는 공식 언어이자 가장 널리 사용되는 언어로, 1700만 명 이상의 사람들이 사용합니다.[7], [8], [9]. 캄보디아는 급속한 디지털화를 겪고 있으며, 캄보디아어 AI 도구와 리소스에 대한 수요가 점점 더 시급해지고 있습니다. 비즈니스 문서, 즉 영수증, 청구서, 인용문은 상업, 공공 행정, 세금, 기록 보관 시스템에서 중요한 역할을 하지만 현재 문서 분석 기술에 크게 미비한 실정입니다.[10]. 대부분의 현재 도구와 데이터셋은 영어나 다른 고자원 언어에 맞춰져 있어 캄보디아어에 직접 최신 모델을 적용하는 것은 어렵습니다. 스크립트 자체가 복잡한 리가투르, 스택된 문자, 단어 사이의 공백 부족 등 고유의 과제를 안고 있어 OCR 및 레이아웃 분석에 큰 장애물이 됩니다.[11], [12]. 또한, 캄보디아 비즈니스 문서에 대한 공개적으로 이용 가능한 주석 달린 데이터셋이 부족하여 연구 진전 및 실용적 배포에 한계가 있습니다.[13], [14].

이러한 과제를 해결하기 위해 저희는 캄보디아어 비즈니스 문서 이해를 위한 최초의 공개 계층형 데이터셋이자 평가 벤치마크인 KH-FUNSD를 소개합니다. 저희 주석 체계는 지역 수준 탐지, FUNSD 스타일 엔티티 링크, 미세 분류와 같은 세 가지 레벨 프레임워크로 구성되며, 이를 통해 비즈니스 문서의 구조적 및 의미적 측면을 모두 포착합니다.

본 연구의 주요 기여는 다음과 같습니다:

  • KH-FUNSD 소개: 캄보디아어 양식 문서 이해를 위한 최초의 데이터셋이자 벤치마크이며, 포괄적인 지역 주석, FUNSD 스타일 Q&A, 계층적 주석을 포함합니다.
  • 기본 평가: 최신 모델(YOLO, DETR, LayoutLM)을 사용하여 지역 탐지 및 의미 역할 예측에 대한 기본 평가를 제공합니다.
  • 공개: 데이터셋과 가이드라인을 공개하여 추가 연구와 개발을 지원합니다. 이 다단계 주석 접근 방식은 강력한 구조적 레이아웃 모델링과 정확한 의미 정보 추출을 가능하게 합니다. 캄보디아 영수증 및 청구서에 대한 표준화된 평가를 제공함으로써 저희 작업은 저자원 문서 AI의 격차를 해소하고 동남아시아의 대표되지 않은 언어에 대한 연구를 촉진하는 것을 목표로 합니다.

문서 레이아웃 분석은 초기 규칙 기반 시스템에서 현대 딥러닝 모델로 진화했습니다. 이러한 모델은 텍스트와 시각적 기능을 통합하여 고자원 언어에서 우수한 성능을 발휘합니다. 영어 모델인 LayoutLM, LayoutLMv2, LayoutLMv3는 지역 탐지, 의미 라벨링, 키-값 정보 추출과 같은 작업에서 최첨단 성능을 달성했습니다.[4], [5], [6]. 이러한 진보는 대규모 주석 데이터셋, 고품질 OCR 엔진, 지속적인 연구 초점에 힘입어 이루어졌습니다.

그러나 이러한 발전은 저자원 및 비라틴 스크립트에는 동일하게 적용되지 못했습니다. 복잡한 문자 체계, 변동적인 문서 레이아웃, 그리고 라벨링된 학습 데이터 부족은 이러한 스크립트의 개발과 평가에 도전 과제를 안겨줍니다. 최근 중국어[15], 아랍어[16], 일본어[17]를 위한 전문 데이터셋과 모델 적응이 시작되었지만, 동남아시아 스크립트인 캄보디아어는 여전히 대표되지 못했습니다. 고유의 시각적 및 언어적 특성과 주석 리소스의 부족은 레이아웃 인식 모델의 개발과 검증을 저해합니다. 교차 언어 전이 및 스크립트 적응 기법은 효과가 제한적이며 도메인별 학습 데이터의 부족으로 인해 제약받습니다. 새로운 모델인 DETR[18]와 Donut[19]는 OCR 없는 엔드투엔드 문서 이해를 탐구하지만, 주로 고자원 라틴 기반 스크립트를 대상으로 하며 저자원 비라틴 컨텍스트에서 검증되지 않았습니다.

여러 벤치마크 데이터셋은 특히 라틴 스크립트 문서를 위한 문서 이해에 크게 기여했습니다. FUNSD[1]와 XFUND[2]는 양식 이해 및 키-값 추출을 위한 널리 사용되는 데이터셋이며, RVL-CDIP[20]는 대규모 스캔된 문서 이미지를 16개 범주로 제공하여 문서 분류 및 고수준 레이아웃 분석에 자주 사용됩니다. SROIE[21] 데이터셋은 ICDAR 2019 경쟁을 위해 개발되었으며, 영수증 이해에 중점을 두고 엔티티 라벨링과 키-값 추출을 포함합니다. CORD[22]는 다국어 설정을 특히 한국어 및 영어로 확장하며, 풍부한 레이아웃 및 OCR 주석을 제공합니다. 최근에는 캄보디아어 장면 텍스트 감지와 인식에 대한 데이터셋이 도입되어 스크립트 특정 캄보디아어 감지 및 인식을 지원합니다.[23] 그러나 이러한 데이터셋은 주로 고자원 라틴 기반 스크립트를 다루며 저자원 비라틴 스크립트의 다양성이나 구조적 복잡성을 포착하지 못합니다. 비라틴 스크립트에 대한 포괄적인 문서 이해 벤치마크가 부족하며, 계층적 또는 미세 분류 주석이 필요한 경우 더욱 그렇습니다. 이 간격은 개발도상국 언어의 포괄적이고 확장 가능한 문서 AI 시스템 개발을 위한 주요 장벽입니다.

캄보디아어 비즈니스 문서에 대한 연구 진전을 촉진하기 위해 저희는 다양한 출처에서 수집한 인쇄 및 스캔된 영수증, 청구서, 인용문으로 구성된 새로운 주석 데이터셋을 제작했습니다. 이 데이터셋 생성 과정은 실제 캄보디아어 레이아웃을 포괄적으로 대표하면서도 데이터 프라이버시를 철저히 준수하도록 설계되었습니다. 데이터셋은 오픈소스 저장소에서 수집한 자료와 영감을 받아 진정한 비즈니스 양식에서 복제된 합성 샘플의 조합으로 구성됩니다. 모든 민감한 정보는 회사 이름, 주소, 전화번호, 재정 세부 사항과 같은 정보가 합성 또는 무작위로 생성된 값으로 대체되어 익명성을 보장합니다.

데이터셋 생성 과정은 다음과 같습니다:

  1. 데이터 소스 수집: 다양한 출처에서 캄보디아어 비즈니스 문서를 수집했습니다. 여기에는 오픈 액세스 저장소, 정부 또는 사업 자원, 그리고 진정한 비즈니스 양식에서 합성된 샘플이 포함됩니다.
  2. 데이터 전처리: 모든 문서가 고해상도 이미지 형식(최소 300dpi)으로 디지털화되고, 표준화되었습니다. 이 과정에는 왜곡 교정, 자르기, 노이즈 감소, 대비 향상 등의 단계가 포함되어 문서의 명확성을 최적화합니다.
  3. OCR 및 주석: 오픈소스 OCR 도구를 사용하여 텍스트를 추출하고, 이를 기반으로 수동으로 주석을 달아 경계 상자 정확도와 전체 텍스트 무결성을 보장합니다. 품질이 낮은 문서나 불완전한 콘텐츠, 과도한 노이즈는 데이터셋 무결성을 유지하기 위해 필터링되었습니다.
  4. 주석: 세 단계 계층적 프로토콜을 사용하여 레이아웃 구조와 의미 세부 사항을 포착합니다. 첫 번째 단계에서는 각 문서의 주요 의미 영역을 헤더, 양식 필드, 푸터로 세분화합니다. 두 번째 단계에서는 널리 사용되는 양식 이해 벤치마크인 FUNSD[1]에 따라 엔티티를 레이블링하고 텍스트 분할을 수행합니다. 세 번째 단계는 미세 분류를 포함하며, 주석자는 각 텍스트 세그먼트에 정확한 의미 역할을 할당합니다(예: 헤더_라벨, 헤더_값, 양식_라벨, 양식_값, 푸터_라벨, 푸터_값, 심볼 등). 이 다단계 주석 전략은 지역 기반 및 엔티티 기반 문서 분석을 위한 다양한 벤치마크 작업을 가능하게 합니다.
  5. 주석 품질 보장: 엄격한 다중 계층 검토 프로토콜을 통해 주석 품질을 보장합니다. 주석 팀은 주로 캄보디아 학생 연구원으로 구성되었으며, 중국 협력자들은 기술적 감독과 교차 검증을 제공했습니다. 각 문서에 대해 여러 라운드의 주석이 이루어지며, 모호하거나 분쟁이 있는 사례는 고급 주석자들에 의해 결정되었습니다. Cohen의 kappa 계수[24]를 사용하여 주석 일관성을 정량적으로 평가합니다. 이 지표는 두 주석자의 합의 수준을 측정하며, kappa 값이 0.85 이상으로 유지되어 주석 단계 전반에 걸쳐 높은 신뢰성을 보였습니다.

…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…

📸 추가 이미지 갤러리

Figure1.jpg Figure2.jpg

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키