음악 특징 학습을 위한 딥 CNN과 새로운 음향 표현
본 논문은 31명의 클래식 작곡가를 대상으로 5초 길이의 오디오 조각을 3가지 스펙트로그램 형태(로그 STFT, 선형 STFT, 랜덤 매트릭스 변환)로 변환한 뒤, 6계층 컨볼루션 신경망으로 분류 실험을 수행한다. 로그 STFT는 68 %의 정확도를 보였으며, 랜덤 매트릭스 변환(RMT)은 84 %로 가장 높은 성능을 기록한다.
저자: Sergey Shuvaev, Hamza Giaffar, Alexei A. Koulakov
본 논문은 “음악의 미묘한 스타일적 단서가 딥러닝 모델에 의해 학습될 수 있는가”라는 질문을 출발점으로, 다양한 음향 표현과 컨볼루션 신경망(CNN)의 조합을 실험적으로 검증한다. 데이터는 31명의 클래식 작곡가(바흐, 베토벤, 모차르트, 리스트 등)로부터 YouTube에서 수집한 약 2시간 분량의 MP3 파일을 기반으로 한다. 저작권 문제를 고려해 공정 사용 하에 다운로드했으며, 스테레오 채널을 평균해 모노로 변환한 뒤 8 kHz와 2 kHz 두 가지 샘플링 레이트로 다운샘플링하였다. 각 오디오 파일은 5 초 길이의 구간으로 슬라이딩 윈도우(80 % 중첩)하여 1,000개의 스펙트로그램을 생성, 총 31,000개의 학습·검증·테스트 샘플을 확보한다.
음향 신호를 2D 이미지 형태로 변환하는 방법은 세 가지이다. 첫 번째는 인간 청각의 코클레아가 로그 주파수 축에 필터를 배치하는 방식을 모방한 로그‑STFT(logSTFT)이다. 여기서는 16.35 Hz부터 5,587.65 Hz까지의 주파수를 로그 간격으로 나누어 204×204 픽셀 이미지로 변환한다. 두 번째는 동일한 파라미터를 사용하지만 선형 주파수 축에 균등하게 배치한 일반 STFT이다. 세 번째는 DFT 행렬을 정규 가우시안 난수 행렬(R)로 대체한 랜덤 매트릭스 변환(RMT)으로, 전통적인 스펙트럼 구조를 파괴하고 무작위 패턴을 만든다. RMT는 특히 정보 밀도가 높아 CNN이 보다 풍부한 특징을 추출하도록 돕는다.
CNN 아키텍처는 이미지넷 수준의 깊이를 갖는 6계층 컨볼루션 블록으로 구성된다. 각 블록은 3×3 커널을 사용하고, 뒤에 2×2 맥스풀링을 적용한다. 컨볼루션 레이어는 32, 64, 128 채널을 순차적으로 늘려가며, 마지막에는 512‑차원의 완전 연결층, 256‑차원 레이어, 75‑차원 출력 레이어(작곡가 수) 순으로 연결된다. 각 레이어는 Xavier 초기화와 배치 정규화를 적용해 학습 안정성을 확보했으며, 드롭아웃(30 %)을 통해 과적합을 방지한다. 손실 함수는 소프트맥스 교차 엔트로피이며, 최적화는 기본 SGD(learning rate 미제시)로 150 epoch 동안 진행했다. 학습은 NVIDIA Quadro M2000M GPU에서 수행됐으며, 1.5분 정도가 한 epoch의 소요 시간이다.
실험 결과, 로그‑STFT(8 kHz)와 선형 STFT는 각각 68 %와 48 %의 정확도를 기록했다. 이는 5 초 길이의 짧은 조각이 작곡가의 스타일을 완전히 포착하기엔 제한적임을 시사한다. 반면 RMT는 84 %의 정확도로 가장 높은 성능을 보였으며, 2 kHz 저해상도에서도 75 %~80 % 수준을 유지했다. 혼동 행렬을 분석하면, RMT 기반 모델이 특정 작곡가(예: 바흐와 모차르트) 사이의 혼동을 크게 줄인 반면, 로그‑STFT 모델은 주파수 해상도에 민감해 일부 작곡가를 서로 혼동하는 경향이 있었다.
논문은 또한 기존 연구와의 비교를 제공한다. DCASE 2013 데이터셋에서 0.69의 정확도를 기록한 이전 CNN 기반 연구와 유사한 수준이지만, 음악 분야에서는 훨씬 짧은 클립(5 초)으로도 높은 정확도를 달성했다는 점이 주목할 만하다. 또한 BirdCLEF에서 STFT 기반 스펙트로그램을 사용해 69 % 정확도를 얻은 사례와 대비해, RMT는 음악 작곡가 식별이라는 보다 복잡한 과제에서 더 높은 성능을 보여준다.
한계점으로는 (1) 5 초 조각이 음악적 구조(악절, 테마, 전개)를 충분히 반영하지 못한다는 점, (2) 인간 청취자와의 성능 비교가 이루어지지 않아 실제 인지적 의미를 평가하기 어렵다는 점, (3) 데이터셋이 클래식 작곡가에 국한돼 있어 장르 일반화가 검증되지 않았다는 점을 들 수 있다. 향후 연구에서는 (a) 더 긴 시퀀스와 멀티스케일 윈도우를 도입해 시간적 맥락을 강화하고, (b) 멜 스케일 필터뱅크와 RMT를 결합한 하이브리드 표현을 탐색하며, (c) 인간 청취자 실험을 통해 인지적 기준을 설정하고, (d) 팝, 재즈, 전자음악 등 다양한 장르와 대규모 데이터셋으로 확장함으로써 모델의 일반화 능력을 검증할 계획이다.
결론적으로, 이 연구는 “음향 신호를 어떻게 시각적 이미지로 변환하느냐”가 딥러닝 기반 음악 분류 성능에 결정적인 영향을 미친다는 사실을 실증하였다. 특히 랜덤 매트릭스 변환이라는 비전통적인 스펙트로그램이 높은 정보 밀도와 주파수 해상도 독립성을 제공해, 기존 로그‑STFT보다 우수한 분류 정확도를 달성한다는 점에서 새로운 연구 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기