기계 번역 평가 세트를 위한 Mechanical Turk 활용

본 논문은 기계 번역(MT) 연구에서 필수적인 평가용 테스트 세트를 저비용으로 구축하는 방법으로 Amazon Mechanical Turk(MTurk)를 활용한 사례를 상세히 보고한다. 서론에서는 기존의 테스트 세트 구축이 비용과 시간 면에서 큰 부담이 되며, 특히 새로운 언어쌍이나 도메인에 맞는 세트를 만들 때 그 부담이 가중된다고 지적한다. WMT08·09 프로젝트에서 전문가와 비전문가를 혼합해 만든 세트가 단어당 약 0.08~0.10 USD의 비용을 요구한 점을 예시로 든다. 연구자는 2009년 NIST Urdu‑English 테스트 세트(1792문장, 4개 레퍼런스)를 대상으로, 동일한 Urdu 문장을 MTurk에 게시하고 각 번역당 $0.10을 지급해 1,792개의 영문 번역을 수집하였다. 총 번역 비용은 $179.20이며, 이는 기존 전문가 비용 대비 200배 이상 절감된 수치이다. 데이터 수집 과정에서 일부 작업자가 자동 번역기를 이용해 답변을 복사·붙여넣는 부정행위를 발견했으며, 이를 수동 검토 후 차단하였다. 향후에는 이미지 형태로 문장을 제시해 복사 방지를 강화할 계획이다. 수집된 번역에는 오탈자와 간단한 문법 오류가 포함될 수 있었기에, 두 번째 단계에서 별도의 작업자를 모집해 교정 작업을 진행하였다. 교정은 10문장당 $0.25, 총 $44.80의 비용이 들었다. 결과적으로 ‘MTurk‑NoEditing’(원본 번역)과 ‘MTurk‑Edited’(교정 후 번역) 두 개의 레퍼런스 세트를 확보하였다. 성능 평가에서는 세 개의 최신 MT 시스템을 선택하였다. ISI‑Syntax과 JHU‑Syntax은 NIST2009에서 거의 동일한 높은 점수를 기록했으며, Joshua‑Hierarchical는 약 20 % 낮은 점수를 보였다. 각 시스템을 NIST2009(4레퍼런스)와 MTurk‑NoEditing, MTurk‑Edited 세트에 적용해 BLEU 점수를 측정하였다. BLEU는 레퍼런스 수에 따라 절대값이 크게 달라지므로, 시스템 간 비교를 위해 ‘baseline performance percentage’를 도입했다. ISI‑Syntax을 100 % 기준으로 잡고, 다른 시스템의 점수를 비율로 나타냈다. NIST2009에서는 ISI‑Syntax 33.10, JHU‑Syntax 32.77(≈99 %), Joshua‑Hierarchical 26.65(≈80 %)를 기록했다. MTurk‑NoEditing에서는 점수가 전반적으로 낮아졌지만(13.81~13.93), 비율은 100 % : 100.87 % : 80.38 % 로 유지되었다. MTurk‑Edited에서도 비율은 100 % : 100.49 % : 82.49 % 로 거의 동일했다. 즉, 레퍼런스가 하나뿐인 MTurk 세트라도 시스템 순위와 상대적 성능 차이는 유지되었다. 교정 작업이 BLEU 절대값을 약간 상승시켰지만, 순위와 비율에는 큰 영향을 미치지 않았다. 결론에서는 MTurk를 이용한 테스트 세트 구축이 비용 효율적이며, 평가 목적에 충분히 활용 가능함을 강조한다. 또한, 부정행위 방지를 위한 이미지 기반 제시와 같은 품질 관리 방안을 제시한다. 향후 연구에서는 엔터테인먼트, 과학 등 특정 도메인에 맞는 테스트 세트를 추가로 구축하고, 이를 공개해 도메인 적응 MT 연구를 촉진하고자 한다. 더 나아가, MTurk와 액티브 러닝을 결합해 새로운 도메인에 대한 훈련 데이터와 테스트 데이터를 동시에 확보하는 방안을 모색한다. 연구는 EuroMatrix‑Plus, DARPA GALE, NSF 등으로부터 지원을 받았으며, Amazon에서 제공한 $100 크레딧도 활용하였다.

기계 번역 평가 세트를 위한 Mechanical Turk 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기