CNN으로 음악 장르 분류 인간 수준 정확도 달성

본 논문은 음악 장르 분류를 위한 새로운 접근법을 제시한다. 기존 연구에서는 MFCC, 텍스처, 비트 등 인간이 설계한 특징을 사용해 10‑genre 분류에서 약 61%의 정확도를 기록했으며, 인간은 3초 청취만으로도 70% 수준의 정확도를 보인다는 심리물리학적 결과가 있다. 이러한 차이를 메우기 위해 저자는 인간 청각 시스템의 계층적 처리와 스펙트로‑템포럴 수용필드(STRF) 개념을 신경망 설계에 직접 반영하였다. 첫 단계는 원시 오디오를 멜 스펙트로그램으로 변환하는 것이다. 멜 스케일은 저주파에 높은 해상도를, 고주파에 낮은 해상도를 제공해 인간 귀의 주파수 분석 방식을 모방한다. 변환된 스펙트로그램은 로그 스케일링을 거쳐 값의 범위를 균일하게 만든다. 이후 전체 30초 트랙을 3초 길이의 겹치는 세그먼트(50% 오버랩)로 나누어 각각을 독립적인 학습 샘플로 사용한다. 이는 “divide‑and‑conquer” 전략으로, 데이터 차원을 크게 줄이면서도 인간이 3초 청취만으로도 장르를 판단한다는 사실을 활용한다. 네트워크 구조는 비교적 단순하다. 입력층은 64 × 256(멜 스케일 × 시간 프레임) 크기의 2D 텐서이며, 첫 번째 컨볼루션 층은 3 × 3 필터 64개, 두 번째는 3 × 5 필터 64개를 사용한다. 각 컨볼루션 뒤에 2 × 4 맥스풀링을 적용해 공간 차원을 축소한다. 이후 전결합 층(32 뉴런)과 10‑class 소프트맥스 출력층이 이어진다. 활성화 함수는 RELU, 정규화는 L2와 드롭아웃을 적용해 과적합을 방지하였다. 학습은 Keras + TensorFlow 환경에서 SGD로 진행했으며, GTX‑1070 GPU 한 대에서 수행되었다. 데이터는 GTZAN 데이터셋(1000곡, 30초, 22.05 kHz)에서 추출했으며, 훈련·검증·테스트 비율을 5:2:3으로 나누었다. 각 에폭마다 무작위 시작점에서 3초 세그먼트를 추출해 미니배치를 구성하고, 교차 엔트로피 손실을 최소화하도록 가중치를 업데이트한다. 테스트 단계에서는 전체 트랙을 3초 세그먼트(10% 오버랩)로 나누고, 각 세그먼트에 대한 확률 예측을 평균해 최종 장르를 결정한다. 실험 결과, 제안된 모델은 테스트 셋에서 70% 정확도를 달성했으며, 이는 인간 수준의 정확도와 동일하다. 기존 61% 수준의 MFCC 기반 모델보다 9%p, 5‑genre 70% 모델보다 10%p 높은 성능을 보였다. 혼동 행렬 분석에 따르면, 클래식, 팝, 재즈 등은 높은 정확도를 보였으나, 컨트리와 록은 상대적으로 낮은 정확도를 보였다. 저자들은 이는 3초 세그먼트가 비트·리듬 등 장기적 특성을 충분히 포착하지 못하기 때문이라고 해석하고, 전체 곡을 저해상도 멜 스펙트로그램으로 보조 입력하는 멀티‑스케일 접근을 제안한다. 또한, 학습된 필터를 시각화한 결과가 인간 청각 피질에서 관찰되는 STRF와 형태학적으로 유사함을 확인했다. 특히 2번째 맥스풀링 층의 필터는 시간‑주파수 영역에서 특정 대역을 강조하거나 억제하는 패턴을 보이며, 이는 청각 뉴런이 소리를 계층적으로 추출하는 방식과 일치한다. 마지막 은닉층의 활성화를 LDA로 3차원 투영했을 때, 원시 멜 스펙트로그램 대비 선형적으로 명확히 구분되는 클러스터가 형성되어, CNN이 비선형 변환을 통해 데이터의 판별성을 크게 향상시켰음을 입증한다. 결론적으로, 인간 청각의 생리·심리학적 특성을 신경망 설계와 전처리 단계에 직접 반영함으로써, 비교적 얕은 CNN 구조가 복잡한 음악 장르 분류에서도 인간 수준의 성능을 달성할 수 있음을 보여준다. 향후 연구에서는 장기적 리듬 정보를 통합하거나, 멀티‑스케일 멜 스펙트로그램을 병합하는 방식으로 현재의 한계를 보완하고, 컨트리·록과 같이 구분이 어려운 장르에 대한 정확도를 향상시킬 수 있을 것으로 기대된다.

CNN으로 음악 장르 분류 인간 수준 정확도 달성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기