맥스 풀링 vs 노이즈 오어 풀링: 약한 라벨링 시퀀스 학습에서의 성능 비교
본 논문은 약한 라벨(존재/부재)만 제공되는 음성 인식 및 사운드 이벤트 검출 작업에서 MIL 프레임워크의 두 가지 풀링 함수, 맥스 풀링과 노이즈-오어 풀링을 비교한다. 실험 결과 맥스 풀링은 이벤트의 정확한 시작·종료 시점을 학습해 효과적인 로컬라이제이션을 달성한 반면, 노이즈-오어 풀링은 큰 bag(수백 프레임)에서 확률 곱셈으로 인한 손실 과다와 신호 소실 문제로 성능이 급격히 저하된다. 논문은 이러한 차이를 이론적으로 분석하고, 시퀀스…
저자: Yun Wang, Juncheng Li, Florian Metze
본 논문은 약한 라벨링(존재/부재)만 제공되는 시퀀스 학습 문제에서 다중 인스턴스 학습(MIL) 프레임워크를 적용하고, 인스턴스‑level 예측을 bag‑level 예측으로 집계하는 두 가지 풀링 함수, “맥스 풀링”과 “노이즈‑오어 풀링”의 성능을 체계적으로 비교한다. 연구 동기는 강한 라벨(시작·종료 시점) 확보가 비용이 많이 들고 규모 확장이 어렵다는 점에서, 약한 라벨만으로도 이벤트 로컬라이제이션을 가능하게 하는 방법을 찾는 것이다.
**MIL 기본 구조**
시퀀스를 bag으로, 각 프레임을 인스턴스로 간주한다. 인스턴스‑level 분류기는 CNN·RNN 등 시계열 정보를 활용할 수 있는 네트워크이며, 최종 예측은 sigmoid 활성화를 통해
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기