아이슬란드어 LLM 평가, 벤치마크의 함정과 개선 방안
이 논문은 아이슬란드어를 사례로 LLM 벤치마크를 검토하고, 인간이 직접 만든 데이터와 기계 번역·합성 데이터 사이에 품질 격차가 있음을 실증한다. 자동 생성·번역된 테스트는 오류와 문화적 부조화가 빈번해 평가 신뢰성을 크게 저하시킨다. 저자는 저자원 언어에서 검증되지 않은 합성 벤치마크 사용을 경고하고, 인간 검증 절차와 문화·언어 적합성을 고려한 벤치마크 설계가 필요함을 주장한다.
저자: Finnur Ágúst Ingimundarson, Steinunn Rut Friðriksdóttir, Bjarki Ármannsson
이 논문은 “Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic”이라는 제목 아래, 아이슬란드어를 저·중자원 언어 사례로 삼아 현재 LLM 벤치마크의 현황과 문제점을 심층적으로 분석한다. 서론에서는 전통적인 NLP 벤치마크가 단일 라벨 출력(예: POS‑tagging, NER 등)에 초점을 맞추었으나, 대형 언어 모델(LLM)의 등장으로 자연어 생성·이해 전반을 평가할 필요성이 대두됐음을 언급한다. 특히 연구자들이 자신이 모국어가 아닌 언어에 대해 벤치마크를 만들 때, 인간 번역·작성 대신 기계 번역(MT)이나 LLM이 자동 생성한 합성 데이터를 활용하는 경우가 급증하고 있다. 이러한 관행은 저·중자원 언어에서 특히 위험한데, 번역 품질이 낮고 문화·언어적 차이를 반영하지 못하면 테스트 자체가 왜곡되기 때문이다.
관련 연구 파트에서는 벤치마크 설계의 함정, 자동 생성 데이터의 표면적 통계적 파워와 실제 타당성(construct validity) 사이의 불일치, 그리고 다국어 벤치마크에서 번역 아티팩트가 모델 성능에 미치는 부정적 영향을 다룬 선행 연구들을 정리한다. 특히 Bowman & Dahl(2021) 이후 벤치마크 포화 현상, Eriksson et al.(2025)의 설계·인센티브 문제, 그리고 번역·합성 데이터가 문화적 맥락을 상실하고 편향을 증폭시키는 사례들을 인용한다.
본 논문의 핵심 실험은 아이슬란드어에 현재 공개된 두 개의 리더보드(Miðeind와 EuroEval)에서 사용되는 12개 벤치마크를 대상으로 정량적 오류 분석을 수행한 것이다. 각 벤치마크는 인간 번역·검증이 이루어진 경우와 자동 번역·합성된 경우로 구분된다. 예를 들어, WinoGrande‑IS, GED, Inflection, Belebele는 인간이 직접 번역·작성했으며, ARC‑Challenge‑IS(Miðeind)와 ARC‑IS(EuroEval), HellaSwag‑IS, MMLU‑IS 등은 전부 기계 번역 또는 LLM이 생성한 데이터이다.
표본 추출 방식은 데이터 규모가 250행을 초과하면 무작위 250개, 그 이하이면 전체의 10%를 선택하는 방식이며, 모든 표본은 아이슬란드어와 NLP에 전문성을 가진 세 명의 저자가 ‘IC(심각히 오류·번역 불량)’, ‘F(오류 존재)’, ‘OK(유효)’ 라벨을 부여했다. 라벨링 간 일관성은 Krippendorff’s α와 가중 합의를 사용해 평가했으며, 대부분의 벤치마크에서 중간 이상(α ≥ 0.5) 수준을 보였지만, HellaSwag‑IS와 MMLU‑IS는 라벨 간 의견 차이가 크게 나타났다.
분석 결과는 두드러진 차이를 보여준다. 인간 검증이 포함된 벤치마크는 OK 비율이 40~70%에 달했으며, 특히 Miðeind의 ARC‑Challenge‑IS는 60% 이상의 유효 샘플을 보였다. 반면, EuroEval이 제공하는 기계 번역 버전 ARC‑IS는 OK 비율이 20%에 불과했고, HellaSwag‑IS와 MMLU‑IS는 거의 전부 ‘IC’ 혹은 ‘F’ 라벨을 받아 실질적인 평가 가치가 없었다. 또한, IRR이 낮은 경우는 라벨 정의가 모호하거나 오류가 과도하게 집중된 데이터임을 시사한다.
이러한 정량적 증거를 바탕으로 저자들은 다음과 같은 결론을 도출한다. 첫째, 저·중자원 언어에서 자동 번역·합성된 벤치마크는 언어 고유의 형태론·문맥·문화적 특성을 반영하지 못해 모델 성능을 과대평가하거나 왜곡한다. 둘째, 벤치마크 자체가 학습 데이터에 포함될 경우 모델이 테스트 데이터를 학습해 버리는 ‘컨탐네이션’ 현상이 발생해 실제 일반화 능력을 측정하기 어렵다. 셋째, 현재 EuroEval에서 ‘공식’·‘비공식’ 벤치마크를 구분하는 기준이 불명확해 결과 해석에 혼란을 초래한다.
이에 대한 해결책으로 저자들은 (1) 모든 벤치마크에 인간 검증 과정을 필수화하고, 검증 단계에서 문화·언어 적합성을 평가하는 메타‑벤치마크를 도입할 것을 제안한다. (2) 저자원 언어 전용 데이터 수집·정제 인프라를 구축해 지속 가능한 벤치마크 생태계를 조성하고, 번역·합성 과정에서 발생할 수 있는 오류를 자동 탐지·수정하는 도구를 개발한다. (3) 벤치마크 메타데이터(출처, 번역 방식, 검증 여부 등)를 표준화해 투명성을 확보하고, ‘공식/비공식’ 구분 기준을 명문화한다. 마지막으로, 평가 결과를 공개하고 재현성을 보장하기 위해 코드·데이터를 모두 오픈소스로 제공하는 것이 필요하다고 강조한다.
전반적으로 이 논문은 저·중자원 언어에서 LLM 벤치마크가 어떻게 품질 저하와 문화적 부조화를 초래할 수 있는지를 실증적으로 보여주며, 향후 보다 신뢰할 수 있는 다언어 평가 체계를 구축하기 위한 구체적인 로드맵을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기