주권을 품은 아랍어 생성 AI Fanar 2.0
Fanar 2.0은 카타르 QCRI에서 전적으로 설계·구축·운용한 27 B 파라미터 규모의 아랍어 중심 생성 AI 스택이다. 256대 H100 GPU와 120 B 고품질 토큰을 활용해 지속적 사전학습·모델 병합 전략을 적용했으며, 32K 토큰 컨텍스트와 선택적 사고(trace) 기능을 제공한다. 핵심 LLM은 기존 9 B 모델 대비 아랍어·영어 벤치마크에서 7~9 점 상승을 기록한다. FanarGuard(4 B 필터), Aura 장기 ASR, …
저자: FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad
본 논문은 카타르 컴퓨팅 연구소(QCRI)와 함마드 빈 칼리파 대학교가 공동으로 개발한 차세대 아랍어 중심 생성 AI 플랫폼 ‘Fanar 2.0’의 설계·구현·평가 전 과정을 상세히 기술한다. 서론에서는 아랍어가 전 세계 400 백만 명 이상의 원어민을 보유하고 있음에도 불구하고 웹 상 데이터 비중이 0.5%에 불과해 고품질 학습 데이터 확보가 가장 큰 병목임을 강조한다. 또한, AI 주권을 국가 전략 차원에서 필수 요소로 규정하고, 외부 클라우드·모델 의존을 배제한 전면적인 자체 구축 필요성을 제시한다.
2장에서는 Fanar 2.0 전체 생태계를 소개한다. 핵심 LLM인 Fanar‑27B를 중심으로, 데이터 파이프라인, 사전학습·후학습, 안전 필터(FanarGuard), 음성(Aura), 비전(Oryx), 번역(FanarShaheen), 이슬람 지식(Fanar‑Sadiq), 고전 시(Fanar‑Diwan), 툴콜링·에이전트 프레임워크, 그리고 다층 오케스트레이터까지 총 12개의 모듈이 상호 연동한다. 각 모듈은 오픈소스와 자체 개발 모델을 혼합해 ‘오픈‑웨이트·프라이빗‑모델’ 전략을 적용한다.
3장에서는 Fanar‑27B의 상세 설계를 다룬다. Gemma‑3‑27B를 백본으로 선택하고, 32 K 토큰 컨텍스트와 선택적 사고(trace) 메커니즘을 도입해 장기 의존성 및 복합 추론을 지원한다. 데이터 수집·정제 단계에서는 3가지 레시피(클린 웹, 고품질 문헌, 도메인 특화)로 약 120 B 토큰을 확보했으며, 레시피 기반 annealing과 모델 병합(merging) 기법을 통해 토큰 품질을 최적화한다. 사전학습은 256 GPU H100에서 진행됐으며, 토큰당 평균 손실이 기존 1 T 토큰 대비 8배 적은 양에서도 경쟁력을 유지함을 실험적으로 입증한다.
후학습 파이프라인은 순차적 단계로 구성된다. 먼저 SFT(Instruction‑tuned)로 기본 지시 수행 능력을 강화하고, 이어서 DPO를 적용해 인간 피드백 기반 선호를 반영한다. 장기 컨텍스트 적응(Long‑context) 단계에서는 32 K 윈도우를 활용해 문서‑레벨 추론을 가능하게 하며, 리밸런싱 단계에서는 아랍어·영어·코드 토큰 비율을 재조정해 다언어 균형을 맞춘다. 마지막으로 자기 검증(self‑verification) 트레이스를 삽입해 환각을 억제한다.
4장에서는 안전성·문화 정렬을 담당하는 FanarGuard을 소개한다. 4 B 파라미터 규모의 양방향(Arabic‑English) 필터는 468 K 라벨링된 프롬프트‑응답 쌍을 이용해 무해성, 종교·문화 적합성을 학습한다. 평가 결과, 기존 대형 필터 대비 파라미터 효율이 2배 이상 높으며, 아랍어 특유의 민감 주제에 대한 오탐률을 크게 낮춘다.
5·6장은 음성 모듈 Aura를 다룬다. Aura‑STT‑LF는 장시간(수 시간) 녹음에 대한 자동 음성 인식을 지원하며, 스피커 교체와 잡음 억제를 위한 특수 전처리 파이프라인을 포함한다. 또한, 읽기 쉬운 텍스트 복원 레이어를 통해 구어체를 표준어 형태로 변환한다. Aura‑TTS는 MSA(Modern Standard Arabic) 기반 다중 음성 합성을 제공하고, 개인화된 음성 프로파일을 지원한다.
7·8장은 비전 패밀리 Oryx를 설명한다. Oryx‑IG는 Taxonomy‑Driven 데이터 수집과 DPO 기반 파인튜닝을 통해 아랍 문화·전통을 반영한 이미지 생성 모델을 구축한다. Oryx‑IVU는 이미지·비디오 이해에 아랍어 텍스트와 시각 정보를 연결하는 멀티모달 인코더‑디코더 구조를 채택한다. 평가에서는 CLIP‑like 이미지‑텍스트 정합도와 문화적 적합성 지표에서 기존 모델을 능가한다.
9장에서는 LLM 기반 번역 시스템 FanarShaheen을 소개한다. 양방향(Arabic‑English) 번역 파이프라인은 Fanar‑27B를 기반으로 SFT와 DPO를 거쳐 도메인 다양성을 확대했으며, BLEU·COMET 점수에서 기존 방언 MT 대비 10% 이상 향상된 결과를 보인다.
10장은 이슬람 지식 전용 다중 에이전트 시스템 Fanar‑Sadiq을 다룬다. 기존 단일 파이프라인 RAG를 대체해, 파이프라인별 전문 에이전트(법학, 꾸란 검색, 자카트 계산, 히즈리 달력 등)를 배치하고, 의도 기반 라우팅으로 질의에 최적 에이전트를 자동 선택한다.
11장은 고전 아랍어 시 생성 모델 Fanar‑Diwan을 설명한다. 고전 시문학 코퍼스를 기반으로 다이아크리티제이션·운율 제약을 포함한 파인튜닝을 수행했으며, 인간 평가에서 시적 일관성과 운율 정확도에서 높은 점수를 획득했다.
12장은 툴콜링·에이전트 프레임워크를 제시한다. Fanar‑27B에 함수 호출 인터페이스를 추가해 번역, 음성, 이미지 생성, 이슬람 지식 검색 등 외부 서비스를 연계하는 다단계 워크플로우를 구현한다.
13장은 전체 오케스트레이터 설계를 상세히 기술한다. 의도 인식 기반 라우팅, 컨텍스트 재구성, 전문가 모델 위임, 방어‑인‑깊이(validation) 모듈을 포함한 다층 구조로, 각 서비스 호출 전후에 FanarGuard을 통한 안전 검증을 수행한다.
14장은 프로젝트 전반에서 얻은 교훈과 향후 과제를 정리한다. 제한된 컴퓨팅·데이터 환경에서도 데이터 품질·모델 병합·안전성 설계가 충분히 경쟁력 있는 성능을 이끌어낼 수 있음을 강조하고, 더 큰 토큰 윈도우, 멀티모달 통합, 지속적 피드백 루프 등을 통한 지속 가능한 성장 로드맵을 제시한다.
전반적으로 Fanar 2.0은 ‘주권 AI’를 구현하기 위한 전 과정(데이터, 모델, 안전, 멀티모달, 서비스 오케스트레이션)을 자체적으로 구축한 최초의 대규모 아랍어 AI 스택이며, 제한된 자원 하에서도 세계 수준의 성능을 달성한 사례로 평가된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기