약한 라벨 데이터 기반 공동 분리 분류 모델로 소리 이벤트 탐지와 분리

본 논문은 강한 라벨이 없는 음향 데이터만을 이용해 소리 이벤트를 동시에 탐지하고 개별 소스를 분리하는 공동 분리‑분류(JSC) 모델을 제안한다. 시간‑주파수(T‑F) 마스크를 생성하는 분리 매핑과 마스크를 확률로 변환하는 분류 매핑을 결합해, 전역 가중 순위 풀링(GWRP) 방식으로 학습하면 프레임 단위 오류율(EER) 0.14와 평균 SDR 8.08 dB를 달성한다.

저자: Qiuqiang Kong, Yong Xu, Wenwu Wang

약한 라벨 데이터 기반 공동 분리 분류 모델로 소리 이벤트 탐지와 분리
본 논문은 소리 이벤트 탐지(SED)와 소스 분리(SS)를 동시에 수행할 수 있는 공동 분리‑분류(Joint Separation‑Classification, JSC) 모델을 제안한다. 기존 SED 모델은 강한 라벨(strongly labelled) 데이터, 즉 이벤트의 정확한 시작·종료 시점이 주석된 데이터를 필요로 하지만, 이러한 데이터는 수집·주석 비용이 매우 높다. 반면, 많은 공개 음향 데이터셋은 오직 “이벤트가 존재한다/하지 않는다”는 태그만 제공하는 약한 라벨(weakly labelled) 형태이다. 저자들은 이러한 약한 라벨만을 활용해 효과적인 이벤트 탐지와 동시에 개별 소스의 분리를 달성하고자 한다. ### 모델 구조 1. **입력 변환**: 원본 파형 x를 로그 멜 스펙트로그램 X(t,f)와 같은 시간‑주파수(T‑F) 표현으로 변환한다. 2. **분리 매핑(g₁)**: CNN을 이용해 입력 X를 K개의 T‑F 세그멘테이션 마스크 h₁…h_K 로 매핑한다. 여기서 K는 이벤트 클래스 수이며, 각 마스크는 0~1 값을 갖는다. 다운샘플링 레이어를 제거해 마스크 해상도를 입력과 동일하게 유지함으로써, 마스크가 실제 소스의 시간·주파수 구조를 정밀히 보존하도록 설계하였다. 3. **분류 매핑(g₂)**: 각 마스크 hₖ에 전역 풀링을 적용해 전체 클립에 대한 존재 확률 yₖ를 추정한다. 전역 최대 풀링(GMP), 전역 평균 풀링(GAP), 전역 가중 순위 풀링(GWRP) 세 가지 방식을 비교한다. GWRP는 값의 순위에 따라 가중치를 부여해 GMP와 GAP 사이의 중간 형태를 제공한다. 전체 모델은 yₖ와 약한 라벨 사이의 이진 교차 엔트로피 손실을 최소화하도록 end‑to‑end 학습한다. ### 추론 단계 학습이 끝난 후, 입력 X를 g₁에 통과시켜 얻은 마스크 hₖ와 원본 파형의 위상 정보를 곱해 역변환함으로써 각 클래스별 분리된 파형을 복원한다. 또한 마스크를 시간 축으로 평균하면 프레임 단위 존재 확률을 얻을 수 있어, 전통적인 SED와 동일한 형태의 출력이 가능하다. ### 실험 설정 - **데이터**: DCASE 2017 Task 2에서 제공하는 희귀 이벤트(베이비크라이, 유리 파손, 총성)와 배경 소리를 혼합한 4초 길이 클립 1008개. 1/3은 단일 라벨, 2/3은 다중 라벨 형태이며, 모두 약한 라벨만 제공. - **전처리**: 16 kHz 샘플링, 1024점 FFT, 280점 오버랩, 64개 멜 밴드, 128 프레임. - **네트워크**: 8층 컨볼루션(각 64필터) + 배치 정규화 + ReLU + 드롭아웃(0.3). 마지막 레이어는 클래스 수(K)와 동일한 채널 수를 갖고 시그모이드 활성화로 마스크를 출력. - **풀링 파라미터**: GWRP의 dₖ를 0.999로 설정해 거의 모든 T‑F 유닛을 고려하되 높은 값에 더 큰 가중치를 부여. ### 결과 1. **세그멘테이션 마스크 시각화**: GMP는 이벤트 영역을 과소 표현하고, GAP와 GWRP는 실제 이벤트가 차지하는 T‑F 영역을 보다 정확히 포착한다. 2. **소스 분리 성능** (SDR, SIR, SAR): - 무분리(baseline)와 IBM(이상적인 이진 마스크) 대비, GWRP는 평균 SDR 13.36 dB(베이비크라이)에서 8.08 dB(전체 평균)까지 크게 향상시켰다. - GMP는 SDR 2.99 dB, GAP는 9.58 dB에 그쳤으며, GWRP가 가장 높은 SIR·SAR도 기록했다. 3. **이벤트 탐지 성능** (프레임 단위 EER): - 기존 DNN 기반 베이스라인(0.29) 대비, GWRP 기반 모델은 0.14의 EER를 달성했다. GAP와 GWRP는 비슷한 수준(0.11~0.12)으로 GMP보다 현저히 우수했다. ### 논의 및 향후 과제 - 약한 라벨만으로도 마스크를 학습해 정확한 이벤트 위치와 고품질 소스 분리를 동시에 달성할 수 있음을 입증하였다. - GWRP가 GMP와 GAP의 장점을 결합해 최적의 성능을 보여주었으며, 하이퍼파라미터 dₖ에 대한 민감도는 낮은 편이다. - 현재 실험은 비교적 단순한 3가지 이벤트와 배경 혼합에 국한되었으며, 복잡한 다중 이벤트, 실시간 처리, 그리고 다양한 스펙트로그램 변형(예: CQT, MFCC) 등에 대한 확장이 필요하다. - 또한, 마스크를 직접 활용한 후처리(예: 위상 재구성, 다중 채널 확장)와 결합하면 더욱 향상된 청취 품질을 기대할 수 있다. ### 결론 본 연구는 약한 라벨 데이터만을 이용해 소리 이벤트 탐지와 소스 분리를 동시에 수행할 수 있는 공동 분리‑분류 모델을 제안하고, 전역 가중 순위 풀링을 통한 확률 매핑이 성능 향상에 핵심적인 역할을 한다는 것을 실험적으로 증명하였다. 공개된 코드와 데이터셋을 통해 재현 가능성을 확보했으며, 향후 더 복잡한 환경과 실시간 시스템에 적용할 여지를 남긴다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기