CREPE: 컨볼루션 기반 피치 추정
본 논문은 시간 영역 파형을 직접 입력으로 사용하는 심층 컨볼루션 신경망(CREPE)을 제안한다. 1024‑샘플 윈도우를 16 kHz로 처리해 360개의 센트 단위 피치 클래스를 예측하고, 가중 평균으로 최종 주파수를 산출한다. RWC‑synth와 MDB‑stem‑synth 두 합성 데이터셋에서 pYIN·SWIPE를 능가하는 원시 피치 정확도(RPA)를 기록했으며, 다양한 잡음 환경에서도 높은 강인성을 보인다. 모델과 사전 학습 가중치는 오픈소…
저자: Jong Wook Kim, Justin Salamon, Peter Li
본 논문은 모노포닉 오디오 신호의 기본 주파수(f0)를 추정하는 피치 트래킹 문제에 대해, 전통적인 디지털 신호 처리(DSP) 기반 방법이 갖는 한계를 극복하고자 데이터‑드리븐 접근법을 제안한다. 기존 최고 성능을 보이는 pYIN은 후보 생성 함수(예: YIN의 NCCF)와 히든 마코프 모델(HMM) 기반 후처리를 결합한 복합 파이프라인이며, 높은 평균 정확도를 기록하지만 복잡한 악기, 급격한 피치 변동, 저신호대잡음비(SNR) 환경 등에서는 성능 저하가 발생한다. 이러한 문제점을 해결하기 위해 저자들은 시간 영역 파형을 직접 입력으로 하는 심층 1‑D 컨볼루션 신경망(CREPE)을 설계하였다.
아키텍처는 16 kHz 샘플링된 1024‑샘플(≈64 ms) 윈도우를 입력으로 받아, 6개의 컨볼루션 레이어와 배치 정규화·드롭아웃을 통해 2048 차원의 잠재 표현을 만든다. 마지막 전결합층은 360개의 시그모이드 뉴런으로 구성되며, 각 뉴런은 20 센트 간격으로 C1(32.70 Hz)부터 B7(1975.5 Hz)까지의 피치 클래스를 담당한다. 모델은 각 클래스에 대한 확률을 출력하고, 이 확률을 가중 평균하여 최종 피치를 계산한다. 라벨은 정답 피치를 중심으로 표준편차 25 센트인 가우시안 블러를 적용해 부드러운 손실을 제공한다. 손실 함수는 이진 교차 엔트로피이며, Adam 옵티마이저(learning rate 0.0002)로 최적화한다. 학습은 5‑fold 교차 검증과 아티스트‑조건부 폴드 분할을 사용해 과적합을 방지하고, 검증 손실이 32 epoch 연속 개선되지 않을 때 조기 종료한다.
실험 데이터는 두 종류의 합성 데이터셋이다. 첫 번째 RWC‑synth는 RWC 음악 데이터베이스를 기반으로 단순 사인파 합성한 6.16시간 분량으로 timbre가 매우 균일하다. 두 번째 MDB‑stem‑synth는 MedleyDB에서 230개의 모노 스템을 분석‑합성한 15.56시간 분량으로 실제 악기의 timbre와 다이내믹스를 보존한다. 두 데이터셋 모두 완벽한 f0 라벨을 제공한다.
성능 평가는 원시 피치 정확도(RPA)와 원시 크로마 정확도(RCA)를 50 센트 기준으로 측정한다. RWC‑synth에서는 CREPE가 0.999 ± 0.002의 RPA와 0.999 ± 0.002의 RCA를 기록해 거의 완벽에 가까운 결과를 보였으며, pYIN(0.990 ± 0.006, 0.990 ± 0.006)과 SWIPE(0.963 ± 0.023, 0.966 ± 0.020)를 크게 앞섰다. MDB‑stem‑synth에서도 CREPE는 0.967 ± 0.091(RPA), 0.970 ± 0.084(RCA)로, pYIN(0.919 ± 0.129, 0.936 ± 0.092)과 SWIPE(0.925 ± 0.116, 0.936 ± 0.100)를 모두 능가했다. 특히 10 센트 이하의 엄격한 기준에서도 CREPE는 0.995 ± 0.004의 정확도를 유지해, 미세 피치 차이가 중요한 악보 전사나 고품질 재합성에 유리함을 입증한다.
노이즈 강인성 실험에서는 Pub, White, Pink, Brown 네 종류의 잡음을 다양한 SNR(∞, 40, 30, 20, 10, 5, 0 dB)에서 추가하였다. 전반적으로 CREPE는 모든 잡음 유형과 SNR 구간에서 pYIN·SWIPE보다 높은 RPA를 보였으며, 특히 SNR이 10 dB 이하일 때 가장 큰 우위를 나타냈다. Brown 노이즈에 대해서는 YIN 기반 pYIN이 저주파 에너지에 강해 비슷한 성능을 보였지만, 전반적인 변동성은 CREPE가 더 낮았다.
첫 레이어 필터의 푸리에 스펙트럼을 분석한 결과, RWC‑synth에서는 필터 피크가 600‑1500 Hz에 집중돼 배음 정보를 활용해 f0를 추정한다는 점이 드러났다. 반면 MDB‑stem‑synth에서는 필터 피크가 f0 분포와 겹치면서 기본 주기성을 직접 포착한다. 이는 모델이 데이터의 timbre 특성에 맞춰 학습 전략을 조정한다는 증거이며, 다양한 악기에 대한 일반화 능력을 설명한다.
악기별 성능 분석에서는 평균 피치가 높은 악기(바이올린, 피콜로)에서 정확도가 다소 낮아졌지만, 전체적으로 90 % 이상의 RPA를 유지했다. 특히 훈련에 전혀 등장하지 않은 dizi(중국 플루트)는 일반화에 실패해 낮은 정확도를 보였으며, 이는 데이터 다양성 확보의 필요성을 강조한다.
결론적으로, CREPE는 시간‑도메인 파형을 직접 처리하는 1‑D CNN 구조와 센트‑단위 출력 설계, 가우시안 라벨 스무딩을 결합해 기존 DSP‑기반 피치 추정기를 뛰어넘는 정확도와 잡음 강인성을 달성했다. 모델과 사전 학습 가중치는 오픈소스로 제공되어 재현성과 실용성을 높였으며, 멀티‑피치 추정, 실시간 처리, 다양한 음악·음성 응용 분야로의 확장 가능성을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기