약한 라벨 데이터 기반 공동 분리 분류 모델로 소리 이벤트 탐지와 분리

본 논문은 소리 이벤트 탐지(SED)와 소스 분리(SS)를 동시에 수행할 수 있는 공동 분리‑분류(Joint Separation‑Classification, JSC) 모델을 제안한다. 기존 SED 모델은 강한 라벨(strongly labelled) 데이터, 즉 이벤트의 정확한 시작·종료 시점이 주석된 데이터를 필요로 하지만, 이러한 데이터는 수집·주석 비용이 매우 높다. 반면, 많은 공개 음향 데이터셋은 오직 “이벤트가 존재한다/하지 않는다”는 태그만 제공하는 약한 라벨(weakly labelled) 형태이다. 저자들은 이러한 약한 라벨만을 활용해 효과적인 이벤트 탐지와 동시에 개별 소스의 분리를 달성하고자 한다. ### 모델 구조 1. **입력 변환**: 원본 파형 x를 로그 멜 스펙트로그램 X(t,f)와 같은 시간‑주파수(T‑F) 표현으로 변환한다. 2. **분리 매핑(g₁)**: CNN을 이용해 입력 X를 K개의 T‑F 세그멘테이션 마스크 h₁…h_K 로 매핑한다. 여기서 K는 이벤트 클래스 수이며, 각 마스크는 0~1 값을 갖는다. 다운샘플링 레이어를 제거해 마스크 해상도를 입력과 동일하게 유지함으로써, 마스크가 실제 소스의 시간·주파수 구조를 정밀히 보존하도록 설계하였다. 3. **분류 매핑(g₂)**: 각 마스크 hₖ에 전역 풀링을 적용해 전체 클립에 대한 존재 확률 yₖ를 추정한다. 전역 최대 풀링(GMP), 전역 평균 풀링(GAP), 전역 가중 순위 풀링(GWRP) 세 가지 방식을 비교한다. GWRP는 값의 순위에 따라 가중치를 부여해 GMP와 GAP 사이의 중간 형태를 제공한다. 전체 모델은 yₖ와 약한 라벨 사이의 이진 교차 엔트로피 손실을 최소화하도록 end‑to‑end 학습한다. ### 추론 단계 학습이 끝난 후, 입력 X를 g₁에 통과시켜 얻은 마스크 hₖ와 원본 파형의 위상 정보를 곱해 역변환함으로써 각 클래스별 분리된 파형을 복원한다. 또한 마스크를 시간 축으로 평균하면 프레임 단위 존재 확률을 얻을 수 있어, 전통적인 SED와 동일한 형태의 출력이 가능하다. ### 실험 설정 - **데이터**: DCASE 2017 Task 2에서 제공하는 희귀 이벤트(베이비크라이, 유리 파손, 총성)와 배경 소리를 혼합한 4초 길이 클립 1008개. 1/3은 단일 라벨, 2/3은 다중 라벨 형태이며, 모두 약한 라벨만 제공. - **전처리**: 16 kHz 샘플링, 1024점 FFT, 280점 오버랩, 64개 멜 밴드, 128 프레임. - **네트워크**: 8층 컨볼루션(각 64필터) + 배치 정규화 + ReLU + 드롭아웃(0.3). 마지막 레이어는 클래스 수(K)와 동일한 채널 수를 갖고 시그모이드 활성화로 마스크를 출력. - **풀링 파라미터**: GWRP의 dₖ를 0.999로 설정해 거의 모든 T‑F 유닛을 고려하되 높은 값에 더 큰 가중치를 부여. ### 결과 1. **세그멘테이션 마스크 시각화**: GMP는 이벤트 영역을 과소 표현하고, GAP와 GWRP는 실제 이벤트가 차지하는 T‑F 영역을 보다 정확히 포착한다. 2. **소스 분리 성능** (SDR, SIR, SAR): - 무분리(baseline)와 IBM(이상적인 이진 마스크) 대비, GWRP는 평균 SDR 13.36 dB(베이비크라이)에서 8.08 dB(전체 평균)까지 크게 향상시켰다. - GMP는 SDR 2.99 dB, GAP는 9.58 dB에 그쳤으며, GWRP가 가장 높은 SIR·SAR도 기록했다. 3. **이벤트 탐지 성능** (프레임 단위 EER): - 기존 DNN 기반 베이스라인(0.29) 대비, GWRP 기반 모델은 0.14의 EER를 달성했다. GAP와 GWRP는 비슷한 수준(0.11~0.12)으로 GMP보다 현저히 우수했다. ### 논의 및 향후 과제 - 약한 라벨만으로도 마스크를 학습해 정확한 이벤트 위치와 고품질 소스 분리를 동시에 달성할 수 있음을 입증하였다. - GWRP가 GMP와 GAP의 장점을 결합해 최적의 성능을 보여주었으며, 하이퍼파라미터 dₖ에 대한 민감도는 낮은 편이다. - 현재 실험은 비교적 단순한 3가지 이벤트와 배경 혼합에 국한되었으며, 복잡한 다중 이벤트, 실시간 처리, 그리고 다양한 스펙트로그램 변형(예: CQT, MFCC) 등에 대한 확장이 필요하다. - 또한, 마스크를 직접 활용한 후처리(예: 위상 재구성, 다중 채널 확장)와 결합하면 더욱 향상된 청취 품질을 기대할 수 있다. ### 결론 본 연구는 약한 라벨 데이터만을 이용해 소리 이벤트 탐지와 소스 분리를 동시에 수행할 수 있는 공동 분리‑분류 모델을 제안하고, 전역 가중 순위 풀링을 통한 확률 매핑이 성능 향상에 핵심적인 역할을 한다는 것을 실험적으로 증명하였다. 공개된 코드와 데이터셋을 통해 재현 가능성을 확보했으며, 향후 더 복잡한 환경과 실시간 시스템에 적용할 여지를 남긴다.

약한 라벨 데이터 기반 공동 분리 분류 모델로 소리 이벤트 탐지와 분리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기