대규모 정밀 오디오 캡션 데이터셋 ACAVCaps 소개와 성능 검증
본 논문은 기존 오디오 캡션 데이터의 규모와 세밀함 부족을 극복하고자, ACAV100M을 기반으로 다중 전문가 모델과 LLM을 결합한 파이프라인으로 4.7 백만 개의 고품질, 다중 도메인(음성·음악·소리 이벤트) 캡션을 생성한 ACAVCaps 데이터셋을 제안한다. ACAVCaps로 사전 학습한 모델은 다양한 다운스트림 과제(음성 인식, 환경 소리 분류, 악기 인식, 감정 인식 등)에서 기존 대규모 자동 생성 데이터셋을 능가하는 일반화 성능을 보…
저자: Yadong Niu, Tianzi Wang, Heinrich Dinkel
본 논문은 대규모 일반 오디오 이해를 위한 핵심 과제인 오디오 캡션의 질과 규모를 동시에 개선하고자 한다. 기존 AudioCaps, Clotho와 같은 인간 주석 기반 데이터는 고품질이지만 샘플 수가 수천 수준에 머물러 확장성이 부족하고, AudioSetCaps, WavCaps, Auto‑ACD 등 자동 생성 데이터는 규모는 크지만 캡션이 얕고 일관성이 떨어진다. 이러한 문제점을 인식한 저자들은 ACAV100M이라는 방대한 오디오‑비디오 컬렉션을 토대로, 멀티‑전문가(Multi‑Expert) 파이프라인과 대형 언어 모델(LLM) 기반 체인‑오브‑쓰(CoT) 프롬프트를 결합한 새로운 데이터셋 ACAVCaps를 구축하였다.
### 1. 데이터 구축 파이프라인
- **전문가 모델 분석**: CED‑Base 모델로 AudioSet 라벨을 예측하고, 라벨에 따라 음성(ASR·스피커 특성), 음악(템포·키·무드·보컬 분리), 소리 이벤트(라벨 기반 세부 분석) 전용 모듈을 호출한다.
- **비음성 특성 추출**: RMS, 신호 대 잡음비, 리버브 타임 등 객관적인 음향 지표를 계산해 “콘텐츠‑무관” 정보를 보강한다.
- **메타데이터 활용**: 원본 파일에 포함된 제목·태그·촬영 정보 등을 추출해 LLM 입력에 포함한다.
- **LLM‑CoT 합성**: Deepseek‑R1을 사용해 체인‑오브‑쓰 프롬프트를 제공, 전문가 모델 출력 간 불일치를 해결하고, 각 오디오 클립에 대해 3가지 스타일(서술적·기술적·질문형)로 캡션을 생성한다. 또한, 캡션당 신뢰도 점수를 부여하고, Q‑A 쌍을 추가해 데이터 활용성을 높였다.
이 과정을 통해 4.7 백만 개의 오디오‑텍스트 쌍이 생성되었으며, 고유 토큰 수는 76.7 K로 기존 데이터셋을 크게 앞선다.
### 2. 실험 설계
- **모델 아키텍처**: Dasheng‑Base 오디오 인코더 + 경량 MLP 어댑터 + Qwen3‑0.6B 디코더.
- **학습 설정**: 8 GPU, AdamW8bit, LR 1e‑4, weight decay 0.01, batch 16. 사전 학습 시 인코더와 어댑터를 공동 학습하고, LLM은 LoRA 방식으로 파인튜닝한다.
- **평가**: (1) MECA‑T‑Caption 벤치마크를 통한 직접 캡션 품질 평가(D‑ATE 점수 사용). (2) Speech(ASR), Sound Event(VGGSound·VocalSound), Music(NSynth), Paralinguistic(Emotion‑IEMOCAP) 등 네 가지 다운스트림 과제에서 어댑터만 미세조정한 전이 성능 평가.
### 3. 주요 결과
- **캡션 품질**: ACAVCaps 모델은 D‑ATE 60.9점으로, 기존 최고 성능 데이터셋인 AudioSetCaps(20.9)보다 3배 이상 높은 점수를 기록했다. 특히 “Systematic”, “Content‑Specific”, “Content‑Unrelated” 모든 카테고에서 균형 잡힌 성능을 보였다.
- **다운스트림 일반화**: Speech(ASR)에서는 58.3% (AISHELL‑2) 등 기존 데이터 대비 약 5~10%p 향상, Sound Event에서는 VGGSound 92.1% 등 현저히 높은 정확도를 달성했다. 음악 악기 인식(NSynth)에서도 64.7%로 기존 45% 수준을 크게 앞섰다. 감정 인식에서도 28.9%로 경쟁 모델을 능가했다.
- **정보 밀도 효과**: “Combined” 데이터셋(6 M 샘플, 고유 토큰 47.6 K)보다 샘플 수는 적지만 고유 토큰이 1.6배 많은 ACAVCaps가 전반적으로 우수한 전이 성능을 보이며, 데이터 양보다 어휘·내용 다양성이 모델 일반화에 더 큰 영향을 미침을 실증한다.
### 4. 논의 및 한계
- **전문가 모델 의존성**: 초기 라벨링 오류가 최종 캡션에 전파될 위험이 존재한다. 향후 전문가 모델을 지속적으로 업데이트하고, 앙상블 기법을 도입해 오류를 최소화할 필요가 있다.
- **LLM 비용**: 대규모 LLM을 이용한 캡션 생성은 높은 연산 비용과 시간 지연을 초래한다. 효율적인 프롬프트 설계와 경량화 모델 적용이 요구된다.
- **도메인 편향**: 현재 ACAVCaps는 ACAV100M의 소스 분포에 크게 의존하므로, 현장 소음·산업 환경 등 특수 도메인에 대한 캡션 다양성이 부족할 수 있다. 향후 다양한 소스(예: 현장 녹음, 의료 사운드)와의 결합이 필요하다.
### 5. 결론
ACAVCaps는 “대규모 + 고품질 + 다중 도메인”이라는 세 축을 동시에 만족하는 최초의 오디오 캡션 데이터셋으로, 멀티‑전문가 분석과 LLM‑CoT 합성을 통해 인간 수준의 세밀하고 다양성 있는 텍스트를 자동 생성한다. 실험 결과는 ACAVCaps가 기존 자동 생성 데이터셋을 뛰어넘어, 캡션 품질뿐 아니라 다양한 다운스트림 오디오 과제에서도 뛰어난 전이 성능을 제공함을 보여준다. 이는 차세대 대형 오디오‑언어 모델 개발에 있어 데이터의 “질적 풍부함”이 “양”보다 결정적 요인임을 강조한다. 향후 연구는 전문가 모델의 지속적 개선, 비용 효율적인 LLM 활용, 그리고 보다 폭넓은 도메인 확장을 통해 ACAVCaps의 적용 범위를 확대하는 방향으로 진행될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기