딥러닝으로 새 소리 위치 자동 태깅

본 연구는 야외에서 수집된 장시간 오디오 녹음에서 새의 발성 구간을 자동으로 탐지하고, 해당 구간을 정확히 구분하기 위한 두 가지 딥러닝 기반 방법을 제시한다. 첫 번째 방법은 사전학습된 DenseNet(121·169) 모델을 이용해 약한 라벨(‘새 소리 존재 여부’만 표시된 데이터)에서 Salience map과 Gradient‑Class Activation Map(Grad‑CAM)을 추출하고, 이를 바탕으로 YOLO v2 객체 검출기를 재학습시켜 스펙트로그램 상의 새 소리 블롭을 정확한 바운딩 박스로 변환한다. 두 번째 방법은 U‑Net 자동인코더를 활용해 스펙트로그램을 바이너리 마스크로 변환, 즉시 세그멘테이션을 수행한다. 데이터 전처리 단계에서 저자들은 10 초 길이의 오디오를 512‑점 해밍 윈도우와 FFT로 변환해 멜‑스펙트로그램을 생성하고, 이를 224 × 224 크기로 리사이즈해 DenseNet에 입력한다. 평균값을 각 주파수 채널에서 빼는(mean‑subtraction) 전처리를 적용하면 정확도가 약 1 %p 상승한다. DenseNet은 전체 녹음이 새 소리를 포함하는지 여부를 이진 분류하고, 동시에 Salience map과 Grad‑CAM을 출력한다. Salience map은 입력 이미지의 각 픽셀이 분류에 기여한 정도를 시각화하며, Grad‑CAM은 특정 클래스와 연관된 고차원 특징 맵을 역전파해 강조한다. 그러나 이 두 지도는 경계가 흐릿하고 잡음에 민감해 정확한 바운딩 박스를 제공하기엔 한계가 있다. 이를 보완하기 위해 저자들은 Salience/Grad‑CAM에서 추출한 후보 영역을 ‘pseudo‑ground‑truth’로 사용해 YOLO v2를 재학습시킨다. YOLO v2는 Darknet‑19 백본에 416 × 416 입력을 사용하고, ImageNet 사전학습 가중치를 그대로 초기화한다. 학습 과정에서 Salience map 기반 바운딩 박스를 정답으로 삼아 객체 검출을 수행한다. 결과적으로 YOLO v2는 Salience map보다 더 정밀한 바운딩 박스를 제공하며, 추론 속도도 실시간 수준(수십 배 빠름)이다. 평가 지표인 Intersection‑over‑Union(IoU)는 Grad‑CAM 기반 모델에서 65.6 %, Guided‑Backprop Saliency 기반 모델에서 66.6 %를 기록, 단순 주의 지도보다 현저히 높은 정확도를 보였다. 두 번째 접근법인 U‑Net은 인코더‑디코더 구조에 스킵 연결을 두어 고해상도 정보를 보존한다. 저자들은 Lasseck 방법

딥러닝으로 새 소리 위치 자동 태깅

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기