CNN과 x벡터 융합으로 DCASE2018 음향 장면 분류 최상위 성적

본 논문은 DCASE‑2018 ASC 과제에서 Brno 대학 팀이 제안한 두 종류의 CNN(2‑D 이미지형 CNN과 1‑D x‑vector CNN)을 활용한 시스템을 소개한다. 로그 멜 스펙트로그램과 CQT 두 가지 특징을 사용하고, 4채널 입력을 통해 스테레오 정보를 통합한다. x‑vector는 정규화 LDA(RLDA)와 코사인 유사도 분류기로 활용되며, 최종적으로 여러 모델의 출력 평균 혹은 로지스틱 회귀 기반 융합을 수행한다. 데이터 증강…

저자: Hossein Zeinali, Lukas Burget, Jan Cernocky

본 논문은 DCASE‑2018 Acoustic Scene Classification(ASC) 과제에서 Brno University of Technology(BUT) 팀이 제안한 시스템을 상세히 기술한다. 데이터는 10개의 장면 클래스로 구성된 8640개의 10초 길이 스테레오 오디오 세그먼트(개발 세트)와 3600개의 평가 세트로 이루어져 있다. 특징 추출은 두 종류를 사용했으며, 첫 번째는 80 밴드 로그 멜 스펙트로그램, 두 번째는 80 밴드 상수‑Q 변환(CQT)이다. 각 특징은 단일 채널(모노)과 4채널(L, R, L+R, L‑R) 형태로 추출돼 CNN 입력으로 활용된다. 4채널 입력은 이미지 처리에서 RGB 채널을 다루는 방식과 유사하게, 시간‑주파수 이미지에 네 개의 채널을 동시에 제공함으로써 스테레오 정보와 위상 차이를 학습한다. 시스템은 두 가지 CNN 토폴로지를 기반으로 한다. 1) 2‑D CNN은 3개의 컨볼루션 블록으로 구성되며, 각 블록은 2‑D 컨볼루션(필터 수 32, 64, 128, 커널 크기 7×11, 7×11, 5×10), 배치 정규화, ReLU, 최대 풀링, 드롭아웃을 포함한다. 마지막 블록 뒤에는 전체 시간 축을 풀링한 후 주파수 축에 대한 전역 평균 풀링을 적용하고, 최종적으로 10개의 클래스를 위한 소프트맥스 레이어가 연결된다. 2) 1‑D CNN 기반 x‑vector 추출기는 프레임 단위 80‑차원 입력을 시간축으로만 합성한다. 4개의 1‑D 컨볼루션 레이어(필터 128, 128, 128, 256)와 통계 풀링(평균·표준편차) 후 128‑차원 임베딩을 만든다. 이 임베딩을 정규화 LDA(RLDA)로 차원 축소(100 차원)하고, 클래스 평균 벡터와 코사인 유사도를 계산해 분류한다. 데이터 증강은 동일 장면의 오디오를 무작위 가중합해 두 개의 새로운 샘플을 생성하는 방식으로, 훈련 데이터를 3배로 늘렸다. 이는 멜 스펙트로그램 기반 2‑D CNN에서 정확도 향상을 보였지만, CQT 및 x‑vector 모델에서는 성능 저하를 일으켰다. 학습은 Adam 옵티마이저(초기 학습률 0.001)와 교차 엔트로피 손실을 사용했으며, 검증 손실이 20 epoch 이상 감소하지 않을 경우 학습률을 절반으로 감소시키는 조기 종료 전략을 3회 반복했다. 배치 크기는 64, 최대 epoch은 200이었다. 시스템 융합은 두 가지 방법으로 수행되었다. 첫 번째는 모든 서브시스템(2‑D CNN 단일·4채널 × 멜·CQT, 1‑D CNN, x‑vector 코사인) 출력의 평균을 취한 ‘Fusion‑Average’이며, 두 번째는 FoCal 툴박스의 다중 클래스 로지스틱 회귀를 이용한 ‘Fusion‑FoCal’이다. 검증 셋이 작아 과적합 위험이 있었으므로 두 방법을 모두 적용해 최종 제출에 사용했다. 실험 결과는 공개 리더보드와 평가 셋 모두에서 보고되었다. 멜 스펙트로그램이 CQT보다 일관되게 높은 정확도를 보였으며, 4채널 입력이 단일 채널 대비 평균 2~4 %의 향상을 제공했다. 데이터 증강을 적용한 경우 멜‑2‑D‑CNN‑LRMS가 71.3 %의 정확도를 기록했으며, 전체 시스템을 평균 융합했을 때 공개 리더보드에서 76.8 %(증강 사용)·78.1 %(전체 데이터 사용)의 정확도를 달성했다. 최종 제출 시스템은 78 % 이상의 정확도로 24팀 중 3위를 차지했다. 이 연구는 (1) 멜 스펙트로그램과 4채널 입력을 통한 스테레오 정보 활용, (2) x‑vector와 정규화 LDA를 이용한 임베딩 기반 보조 분류, (3) 간단한 평균 융합이 복잡한 로지스틱 회귀보다 견고함을 보여주는 등, ASC 분야에서 다중 모델·다중 특징 융합이 성능 향상에 크게 기여함을 실증한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기