원시 오디오와 멜 스펙트로그램을 결합한 고수준 특징 기반 오디오 태깅
본 논문은 DCASE 2018 Audio Challenge의 Task 2에 참여하기 위해, 원시 파형과 로그 스케일 멜‑스펙트로그램을 각각 CNN으로 처리한 뒤 고수준 특징을 결합하는 단일 모델을 제안한다. 두 서브 네트워크의 출력은 전결합 층으로 이어져 최종 태그를 예측하며, 다양한 데이터 증강 기법과 교차 검증을 통해 과적합을 방지한다. 41개 클래스에 대해 mAP@3 기준 상위 2 % 성능을 달성하였다.
저자: Marcel Lederle, Benjamin Wilhelm
본 논문은 2018년 DCASE Audio Challenge의 Task 2, 즉 Freesound General‑Purpose Audio Tagging Competition에 참가하기 위해 설계된 오디오 태깅 시스템을 상세히 기술한다. 기존 연구에서는 멜‑스펙트로그램과 같은 주파수 기반 특성을 CNN에 입력해 높은 성능을 얻었지만, 원시 파형을 직접 활용한 연구는 상대적으로 적었다. 저자들은 이러한 두 입력 형태를 동시에 활용함으로써 서로 보완적인 정보를 학습하고, 이를 단일 모델 내부에서 결합하는 방식을 제안한다.
시스템은 크게 세 부분으로 구성된다. 첫 번째는 원시 오디오 파형을 1‑D 컨볼루션으로 처리하는 cnn‑audio 서브 네트워크이다. 이 네트워크는 네 개의 블록으로 이루어져 있으며, 각 블록은 두 개의 Conv1D 레이어와 하나의 MaxPool1D 레이어로 구성된다. 필터 수는 블록이 진행될수록 32→64→128→256으로 증가하고, 커널 크기는 11→9→7→5로 감소한다. MaxPool 레이어의 풀 사이즈는 초기에는 8(1 s 입력) 혹은 16(2 s, 3 s 입력)으로 설정해 시간 차원을 급격히 축소한다. 각 블록과 최종 Dense 레이어 뒤에는 배치 정규화와 ReLU 활성화가 적용돼 학습 안정성을 높인다.
두 번째는 로그 스케일 멜‑스펙트로그램을 2‑D 컨볼루션으로 처리하는 cnn‑spec 서브 네트워크이다. 입력은 128 × (시간 프레임) 크기의 멜‑스펙트로그램이며, 4개의 Conv2D‑MaxPool2D 블록을 거쳐 점차 공간 차원을 축소한다. 첫 번째 블록에서는 4 × 4 커널, 64개의 필터를 사용하고, 이후 3 × 3 커널과 128, 256개의 필터를 순차적으로 적용한다. 마지막에는 256‑유닛 Dense 레이어와 41‑클래스 Softmax가 연결된다.
세 번째 단계인 cnn‑comb은 앞서 학습된 두 서브 네트워크의 Softmax와 마지막 Dense 레이어를 제거하고, 각각의 최종 특징 벡터를 concatenate한다. 이어지는 전결합 네트워크는 512‑256‑256‑128 유닛으로 구성되며, 최종적으로 41‑클래스 Softmax를 통해 확률을 출력한다. 학습은 세 단계로 진행된다. 먼저 cnn‑audio와 cnn‑spec을 각각 처음부터 학습하고, 이후 이들의 가중치를 고정한 채 전결합 레이어만 추가 학습한다. 이렇게 하면 두 서브 네트워크가 독립적으로 최적의 고수준 특징을 학습한 뒤, 결합 레이어가 이를 효과적으로 통합하도록 할 수 있다.
데이터 증강은 모델의 일반화 능력을 크게 향상시킨다. 원시 파형에 대해 무작위 시간 이동, 길이에 맞는 랜덤 크롭·제로 패딩, 그리고 동일 혹은 다른 클래스의 오디오를 가중합하는 mixup을 적용한다. 멜‑스펙트로그램도 동일한 변환을 적용해 일관된 증강을 유지한다. 특히, mixup은 라벨이 혼합된 경우 각 클래스의 가중치를 예측하도록 손실 함수를 설계함으로써 다중 라벨 상황에 대한 강인성을 부여한다.
학습 설정은 Keras 기반이며, Adam 옵티마이저(learning rate = 0.001), 배치 크기 32, 최대 300 epoch, 조기 종료(patience = 35)로 구성된다. 클래스 불균형을 보정하기 위해 손실에 클래스 가중치를 적용한다. 또한, 전체 훈련 데이터를 5‑fold stratified split으로 나누어 교차 검증을 수행하고, 각 fold의 예측을 기하 평균해 최종 앙상블 결과를 만든다.
평가 지표는 Challenge에서 사용된 mean Average Precision at 3 (mAP@3)이며, 이는 각 오디오에 대해 최대 3개의 예측을 허용한다. 실험 결과, 단일 입력 모델인 cnn‑audio와 cnn‑spec은 각각 1 s, 2 s, 3 s 입력에 대해 mAP@3이 0.89~0.95 수준에 머물렀다. 반면, 결합 모델(cnn‑comb)은 2 s 입력에서 0.966(공개)·0.944(비공개)·0.948(전체) 점수를 기록해 현저히 높은 성능을 보였다. 클래스별 분석에서는 “Squeak”, “Telephone”, “Fireworks” 등 짧고 잡음이 많은 클래스에서 낮은 점수를 보였지만, 전체적으로 베이스라인을 능가하였다. 추가 실험으로 cnn‑comb의 한 입력을 zero‑mask 처리했을 때 성능이 감소함을 확인했으며, 이는 두 서브 네트워크가 제공하는 고수준 특징이 실제로 결합에 기여함을 증명한다.
결론적으로, 원시 파형과 멜‑스펙트로그램을 동시에 활용하는 단일 모델 구조는 복잡한 다중 모델 앙상블 없이도 높은 정확도를 달성할 수 있음을 보여준다. 구현 복잡도와 추론 비용을 크게 늘리지 않으면서도 데이터 증강과 교차 검증을 통해 일반화 성능을 극대화하였다. 향후 연구에서는 더 깊은 시간‑주파수 혼합 구조, 트랜스포머 기반 어텐션 메커니즘, 혹은 멀티스케일 피처 피라미드와의 결합을 탐색함으로써 현재의 한계를 보완할 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기