가나NLP 다중언어 병렬코퍼스 구축과 활용

본 논문은 가나의 저소득 언어인 트위(Twi), 판테(Fante), 에웨(Ewe), 가(Ga), 쿠살(Kusaal) 5개 언어와 영어 사이의 병렬 코퍼스를 구축·공개한 GhanaNLP 이니셔티브를 종합적으로 소개한다. 서론에서는 고리소득 언어(High‑resource languages)와 달리 디지털 자료가 거의 없는 저소득 언어(LRL)들이 AI 기술 혜택에서 소외되고 있음을 강조하고, 특히 가나와 같은 다언어 국가에서 현지 언어의 디지털 부재가 교육·보건·경제 참여에 미치는 부정적 영향을 설명한다. 관련 연구 섹션에서는 Masakhane, AfroLID, MAFAND‑MT 등 아프리카 NLP 커뮤니티의 기존 데이터셋을 검토하고, 기존 가나 언어 코퍼스가 규모·도메인·메타데이터 표준화 측면에서 한계가 있음을 지적한다. 이를 보완하기 위해 GhanaNLP는 다음과 같은 설계 원칙을 채택했다. (1) 다이얼렉트 다양성 확보 – 아산테·아쿠아프 트위, 해안·내륙 판테 등 지역 변이 포함, (2) 도메인 다양성 – 보건·교육·종교·일상 대화, (3) 데이터 투명성 – Hugging Face 데이터카드 스키마 기반 메타데이터 제공, (4) 품질 보증 – 전문 번역가 2인 교차 검증 및 자동 품질 체크. 데이터 구축 과정은 크게 세 단계로 나뉜다. 첫째, 공개 텍스트(위키피디아, 도서, 문화 저장소)와 현지 커뮤니티가 생산한 텍스트를 웹 스크래핑·크롤링한다. 둘째, 수집된 원문을 언어별 전문 번역가가 영어와 상호 번역하고, 번역문은 언어학자와 엔지니어가 교차 검증한다. 셋째, 자동 스크립트를 이용해 문장 ID, 출처, 언어 레이블, 모달리티, 라이선스 정보를 포함한 메타데이터를 생성하고, 데이터카드에 기록한다. 최종 코퍼스는 트위‑영어 14,875문장, 판테‑영어 5,032문장, 에웨‑영어 5,018문장, 가‑영어 3,412문장, 쿠살‑영어 3,176문장으로 총 41,513문장쌍을 구성한다. 파일 형식은 엑셀(XLS)과 JSONL 두 가지를 제공해 연구자와 개발자가 쉽게 접근하도록 설계되었다. 라이선스 정책은 비상업적 연구·교육 목적에 대해 CC‑BY‑NC 4.0을 적용하고, 상업적 활용은 별도 유료 라이선스를 요구한다. 이는 데이터 오픈소스와 상업적 가치 창출 사이의 균형을 맞추려는 전략이다. 성능 평가에서는 구축된 코퍼스로 훈련한 Khaya AI 번역 엔진을 사례로 제시한다. 트위‑영어 번역 모델은 BLEU 27.4점, 에웨‑영어는 BLEU 24.1점을 기록했으며, 인간 평가에서는 기존 상용 번역 서비스 대비 5~12% 높은 정확도를 보였다. 또한, 다이얼렉트 별 성능 차이를 분석해, 아산테 트위와 아쿠아프 트위 간 번역 품질 격차가 존재함을 확인하고, 향후 다이얼렉트‑특화 모델 필요성을 강조한다. 논문의 한계로는 (1) 텍스트 중심 데이터에 국한되어 음성·이미지·비디오 등 멀티모달 자원이 부족함, (2) 도메인 편중(주로 문어체)으로 실제 구어체·소셜미디어 데이터가 부족, (3) 일부 언어의 표준 맞춤법·문법 규칙이 아직 확립되지 않아 자동 정제에 어려움이 존재한다는 점을 언급한다. 향후 계획에는 크라우드소싱을 통한 도메인·다이얼렉트 확대, 음성 데이터 수집·정제, 그리고 기존 코퍼스를 활용한 파인‑튜닝 및 대규모 사전학습 모델 구축이 포함된다. 결론에서는 GhanaNLP 코퍼스가 가나 현지 언어의 디지털 가시성을 크게 향상시켰으며, 아프리카 NLP 연구와 산업 현장에서 데이터·도구·베스트 프랙티스를 제공하는 중요한 기반이 됨을 강조한다. 또한, 데이터 공개와 실용적 적용(Khaya AI 등)을 동시에 추구함으로써 커뮤니티 주도형 AI 개발 모델의 성공 사례를 제시한다.

가나NLP 다중언어 병렬코퍼스 구축과 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기