다중 디바이스 도시 음향 장면 분류 데이터셋

** 본 논문은 DCASE 2018 챌린지의 첫 번째 과제인 “도시 음향 장면 분류”를 위해 설계·제공된 TUT Urban Acoustic Scenes 2018 데이터셋과 그에 대한 베이스라인 시스템을 상세히 기술한다. 데이터셋은 총 10개의 음향 장면(공항, 쇼핑몰, 지하철역, 보행자 거리, 공공광장, 거리·보행자, 교통량이 중간인 거리, 트램, 버스·지하철, 도시 공원)을 6개 유럽 대도시(바르셀로나, 헬싱키, 런던, 파리, 스톡홀름, 비엔나)에서 수집했으며, 각 장면당 5~6분의 녹음이 2~3회에 걸쳐 이루어졌다. 녹음은 고품질 바이노럴 마이크(A 디바이스)와 동시에 스마트폰·카메라 등 저가형 모바일 디바이스(B, C, D)로 진행돼, 동일 시간에 서로 다른 채널 특성을 가진 데이터를 확보했다. 데이터는 10 초 길이의 세그먼트로 나뉘어 제공되며, 개발용 데이터는 24 시간(8640 세그먼트)이며, 평가용 데이터는 10 시간(3600 세그먼트)이다. 모바일 디바이스가 포함된 “Mobile” 버전은 A 디바이스와 병렬로 녹음된 B·C 데이터 2시간을 추가해 총 28 시간을 제공한다. 각 세그먼트에는 장면 라벨, 도시, 녹음 위치 ID가 메타데이터로 포함돼, 훈련·테스트 분할 시 위치 기반 겹침을 방지한다. 과제는 세 가지 서브태스크로 구성된다. 서브태스크 A는 기존과 동일하게 고품질 A 디바이스만 사용해 학습·평가한다. 서브태스크 B는 훈련에는 A 디바이스와 병렬 B·C 데이터를 사용하지만, 평가에서는 B·C 디바이스만 사용해 채널 불일치를 의도적으로 도입한다. 서브태스크 C는 외부 공개 데이터와 전이 학습을 허용해, 데이터 양을 확대하거나 사전 학습된 모델을 활용할 수 있게 한다. 베이스라인 시스템은 2‑계층 CNN 구조를 채택한다. 입력은 40 멜‑밴드 × 500 프레임(10 초)이며, 첫 번째 컨볼루션 레이어는 32개의 7 × 7 필터, 두 번째는 64개의 동일 크기 필터를 사용한다. 각 레이어 뒤에 배치 정규화와 ReLU 활성화, 5 × 5 및 4 × 100 풀링을 적용해 시간·주파수 차원을 축소한다. 드롭아웃(30 %)을 두 번 적용해 과적합을 억제하고, 마지막 전결합 레이어(100유닛)와 Softmax를 통해 10개의 장면 클래스를 예측한다. 성능 평가 결과, 서브태스크 A에서는 개발 세트와 평가 세트 모두 평균 정확도가 약 59.7 %와 61.0 %(±0.7)로, 기존 DCASE 2017 대비 약간 향상된 수준을 보였다. 장면별로는 “거리·보행자”와 “거리·교통량 중간”이 80 % 이상 높은 반면, “공공광장”과 “쇼핑몰”은 30~50 % 수준으로 낮았다. 서브태스크 B에서는 B·C 디바이스에 대한 평균 정확도가 68.9 %~73.4 %로, A 디바이스 대비 약 5 %~10 % 상승했으며, 이는 병렬 데이터가 채널 적응에 기여함을 의미한다. 그러나 디바이스 D(훈련에 전혀 사용되지 않음)에서는 성능이 크게 저하돼, 완전한 디바이스 일반화가 아직 미흡함을 확인했다. 논문은 이러한 결과를 바탕으로 다음과 같은 시사점을 제시한다. 첫째, 다중 도시·다중 디바이스 녹음은 실제 환경과 유사한 복잡성을 제공해, 연구자들이 채널 불일치 문제를 체계적으로 다룰 수 있게 한다. 둘째, 병렬 녹음 데이터는 도메인 적응(예: 어댑테이션 레이어, 스타일 변환) 및 멀티‑조건 학습에 활용될 수 있다. 셋째, 외부 데이터와 전이 학습을 허용하는 서브태스크 C는 대규모 사전 학습 모델(Audioset 기반)과 결합해 성능 향상을 기대할 수 있다. 마지막으로, 디바이스 D와 같은 완전히 새로운 채널에 대한 성능 저하는 향후 연구에서 메타‑러닝, 앙상블, 혹은 채널‑인베리언트 특성 추출 방법을 탐구해야 함을 강조한다. 결론적으로, 본 연구는 규모와 다양성 면에서 가장 큰 공개 음향 장면 데이터셋을 제공함으로써, 향후 음향 장면 분류, 도메인 적응, 멀티‑디바이스 인식 분야의 연구를 촉진할 기반을 마련하였다. **

다중 디바이스 도시 음향 장면 분류 데이터셋

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기