다양한 환경에서 강인한 화자 다이어리제이션을 위한 DIHARD II 챌린지 개요
DIHARD II는 녹음 장비, 잡음, 대화 도메인 등 다양한 변수를 고려한 화자 다이어리제이션 챌린지이다. 단일·다중 채널, 레퍼런스·시스템 SAD 두 가지 입력 조건을 조합한 4개의 트랙을 제공하고, DER과 새롭게 정의한 JER을 평가 지표로 사용한다. 데이터는 오디오북, 회의, 어린이 언어, 식당, 웹 비디오 등 11개 도메인과 CHiME‑5 멀티채널 식사 파티 녹음으로 구성된다. 베이스라인으로는 LSTM 기반 음성 강화, Beamfor…
저자: Neville Ryant, Kenneth Church, Christopher Cieri
본 논문은 화자 다이어리제이션 시스템의 강인성을 평가하기 위해 설계된 두 번째 DIHARD 챌린지, 즉 DIHARD II의 전반적인 설계와 구성, 그리고 제공된 베이스라인 시스템을 상세히 소개한다. 화자 다이어리제이션은 “누가 언제 말했는가”를 판별하는 작업으로, 음성‑텍스트 변환 파이프라인의 전처리 단계에서 핵심적인 역할을 한다. 기존 NIST Rich Transcription 평가와 달리, DIHARD II는 다양한 녹음 장비, 환경 잡음, 대화 도메인, 화자 인구통계학적 특성을 포괄적으로 포함함으로써, 실제 서비스 환경에서 마주치는 복합적인 변수를 반영한다.
챌린지는 두 가지 입력 조건, 즉 ‘단일 채널’과 ‘다중 채널’로 구분한다. 단일 채널은 하나의 오디오 스트림만 제공되며, 이는 원거리 마이크, 헤드셋, 혹은 혼합된 바이노럴 마이크 등 다양한 소스에서 추출된다. 다중 채널은 CHiME‑5 데이터셋에 기반한 식사 파티 녹음으로, 각 가정에 설치된 6대의 Kinect 디바이스(각 4채널 어레이)에서 수집된 데이터를 사용한다. 다중 채널 트랙에서는 참가자가 원하는 만큼의 채널을 선택해 빔포밍 등 신호 처리 기법을 적용할 수 있다.
또한, 각 입력 조건에 대해 ‘레퍼런스 SAD’와 ‘시스템 SAD’ 두 가지 음성 활동 검출(SAD) 조건을 제공한다. 레퍼런스 SAD 트랙에서는 주최 측이 제공한 정확한 발화 구간을 사용해 화자 분류만을 평가한다. 반면 시스템 SAD 트랙에서는 참가자가 원시 오디오만을 받아 자체적으로 SAD를 수행해야 하며, 이는 전체 파이프라인의 종합적인 성능을 측정한다. 이러한 설계는 SAD 성능이 다이어리제이션 전체 정확도에 미치는 영향을 명확히 드러낸다.
평가 지표는 전통적인 Diarization Error Rate(DER)를 기본으로 하며, 콜러(collar)와 겹침 구간 제외 없이 전체 발화 구간을 그대로 채점한다. 이는 짧은 턴, 백채널, 겹침 발화 등 실제 대화에서 흔히 발생하는 현상을 정확히 반영한다. 추가로 새롭게 도입된 Jaccard Error Rate(JER)는 Jaccard 유사도 기반으로 스피커 매핑과 구간 겹침을 동시에 고려해 0%에서 100%까지의 오류 비율을 제공한다. 두 지표 모두 dscore 1.0.1 툴을 사용해 동일한 설정으로 채점한다.
데이터는 11개의 도메인으로 구성된 단일 채널 데이터와 CHiME‑5 멀티채널 데이터로 나뉜다. 단일 채널 데이터는 오디오북, 방송 인터뷰, 아동 언어, 임상 인터뷰, 법정 발언, 지도 과제, 회의, 레스토랑, 사회언어학 현장·실험실, 웹 비디오 등 다양한 소스에서 5~10분 길이의 샘플을 추출해 약 2시간씩 제공한다. 각 도메인은 녹음 장비와 환경이 크게 다르며, 영어뿐 아니라 일부는 중국어(웹 비디오)도 포함한다. 멀티채널 데이터는 CHiME‑5의 식사 파티 녹음으로, 개발 세트는 45시간, 평가 세트는 5시간 규모이며, 각 Kinect는 독립적인 채널 집합으로 처리한다.
주요 전처리로는 개인 식별 정보(PII) 제거가 있다. 임상·레스토랑 도메인에서는 0–400 Hz 저역통과 필터링을 적용하고, 사회언어학 현장·CHiME‑5에서는 톤 삽입 혹은 제로링을 통해 개인정보를 마스킹한다. 이러한 구간은 채점 시 무시된다.
베이스라인 시스템은 실용성을 중시해 구성되었다. 음성 강화는 400시간의 잡음 혼합 데이터를 이용해 IRM을 예측하도록 학습된 밀집 LSTM 모델을 사용한다. 다중 채널 트랙에서는 BeamformIt을 이용한 가중 지연합 빔포밍을 각 Kinect에 적용한다. SAD는 WebRTC‑SAD(py‑webrtc) 구현을 그대로 사용하며, 다이어리제이션은 Kaldi 기반의 x‑vector 추출, PLDA 스코어링, 그리고 변형된 Agglomerative Hierarchical Clustering(AHC) 파이프라인을 재현한다. 베이스라인 결과는 각 트랙별 DER과 JER을 제공하며, 참가자들은 이를 기준으로 성능을 개선하거나 새로운 접근법을 도입할 수 있다.
결론적으로, DIHARD II는 데이터 다양성, 엄격한 평가 기준, 그리고 명확한 베이스라인 제공을 통해 화자 다이어리제이션 연구의 ‘강인성’이라는 핵심 목표를 달성하고자 한다. 이는 연구자들이 특정 도메인에 과적합되지 않고, 실제 서비스 환경에 적용 가능한 일반화된 모델을 개발하도록 유도한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기