프레임 수준 악기 인식: 음색과 피치를 결합한 딥러닝 접근

본 논문은 MusicNet 데이터셋을 활용해 3초 길이의 오디오 세그먼트를 입력으로 하는 CNN 기반 모델을 설계하고, 프레임 단위 다중 라벨 악기 인식을 수행한다. 기본 입력으로는 CQT 스펙트로그램을 사용하고, 피치 정보를 직접 제공하거나 멀티피치 추정 결과를 활용해 Harmonic Series Feature(HSF)와 결합함으로써 음색과 피치의 상호 보완적 특성을 학습한다. 실험 결과, 피치‑인식 모델이 기존 CQT‑단독 베이스라인보다 유…

저자: Yun-Ning Hung, Yi-Hsuan Yang

프레임 수준 악기 인식: 음색과 피치를 결합한 딥러닝 접근
본 논문은 음악 정보 검색(MIR) 분야에서 아직 충분히 다루어지지 않은 “프레임 수준 악기 인식” 문제에 대해 체계적인 연구를 수행한다. 기존 연구들은 주로 솔로 악기 녹음이나 클립‑레벨 라벨에 의존해 악기 분류 모델을 개발했으며, 다중 악기가 동시에 연주되는 상황에서 프레임 단위로 어떤 악기가 활성화되는지를 정확히 판단하기는 어려웠다. 이러한 한계를 극복하기 위해 저자들은 MusicNet 데이터셋을 선택하였다. MusicNet은 330개의 클래식 챔버 음악(총 34시간)과 1백만 개 이상의 피치·악기 라벨을 제공하며, 각 노트의 시작·종료 시점과 연주 악기가 정확히 기록되어 있다. 데이터는 사전 정의된 학습/테스트 분할에 따라 320개의 트랙을 학습에, 10개의 트랙을 테스트에 사용한다. 테스트에 포함된 악기는 피아노, 바이올린, 비올라, 첼로, 클라리넷, 바순, 호른 총 7종이며, 학습 데이터에는 이 외의 악기도 존재하지만 라벨이 없으므로 무시한다. 각 트랙은 3초 길이의 세그먼트로 나뉘어 모델 입력으로 사용되며, 마지막 세그먼트는 제로 패딩으로 동일한 길이를 맞춘다. 모델 설계는 크게 두 부분으로 나뉜다. 첫 번째는 기본적인 음색 특징을 추출하기 위한 CQT(Constant‑Q Transform) 기반 CNN이다. CQT는 12 bins/octave, 총 88개의 피치(음높이) 축을 갖는 258 × 88 행렬을 생성한다. 두 가지 베이스라인 CNN 구조를 실험했는데, 하나는 Liu & Yang(2018) 스타일의 2‑D ConvNet이며, 다른 하나는 Chou et al.(2017) 스타일의 1‑D ConvNet에 Residual Block을 3개 삽입해 총 11개의 Conv 레이어를 갖는 깊은 네트워크이다. 두 모델 모두 배치 정규화와 시그모이드 활성화를 사용해 다중 라벨(7개 악기) 예측을 수행한다. 두 번째는 피치 정보를 어떻게 모델에 통합할 것인가에 대한 탐구이다. 피치는 악기 구분에 중요한 보조 정보가 될 수 있다. 저자들은 (1) 인간 라벨링된 정확한 피치(ground‑truth)와 (2) 최신 멀티피치 추정기(Thickstun et al., 2017)로부터 얻은 추정 피치를 두 가지 소스로 사용한다. 피치 매트릭스 P₀는 CQT와 동일한 차원을 가지며, 각 셀은 해당 프레임·음높이에서 음이 존재하면 1(또는 추정 확률)으로 표시된다. 피치를 활용하는 방법은 세 가지로 구분된다. 1) Harmonic Series Feature(HSF) n: P₀를 기반으로 n번째 배음까지 이동시킨 P₁…Pₙ을 만든 뒤, 이를 누적합해 Hₙ을 만든다. Hₙ은 기본 주파수와 그 배음들의 존재 여부를 동시에 나타내어 악기의 고유한 배음 스펙트럼을 강조한다. Hₙ을 CQT와 채널 차원에서 결합해 “CQT+HSF‑n” 모델에 입력한다. 2) CQT+pitch(F): P₀를 주파수 차원(가로)으로 연결해 258 × 176 행렬을 만든 뒤, 초기 Conv 레이어에 바로 투입한다. 이는 피치 범위 정보를 초기 단계에서 학습하도록 돕는다. 3) CQT+pitch(C): P₀를 채널 차원에 쌓아 CQT와 함께 입력한다. 이렇게 하면 피치와 음색이 동일 레이어에서 동시에 처리된다. 학습은 SGD(learning rate = 0.01, momentum = 0.9)와 가중치 교차 엔트로피 손실을 사용했으며, 클래스 불균형을 보정하기 위해 각 악기별 가중치를 역비율로 조정하였다. 실험 결과는 다음과 같다. 기본 CQT‑전용 모델은 평균 F‑score 약 60%를 기록했으며, 피치‑인식 모델은 모두 이를 상회했다. 특히 “CQT+HSF‑3”은 F‑score 68%를 달성해 가장 큰 향상을 보였고, “CQT+pitch(F)”와 “CQT+pitch(C)”도 각각 65%·66% 수준으로 개선되었다. 악기별 분석에서는 스펙트럼이 유사한 Clarinet, Bassoon, Horn가 가장 큰 이득을 얻었으며, 이는 배음 구조가 이들 악기를 구분하는 핵심 요소임을 시사한다. 또한, 실제 추정 피치를 사용했을 때도 성능 저하가 미미해, 라벨이 없는 실제 환경에서도 제안 방법이 유효함을 확인했다. 결론적으로, 이 논문은 (1) 프레임‑레벨 라벨이 가능한 대규모 데이터셋을 활용한 실험 설계, (2) 피치 정보를 구조화해 배음 특성을 강조하는 HSF 기법, (3) 1‑D Residual CNN을 통한 깊은 특성 학습이라는 세 축을 통해 프레임 수준 악기 인식 정확도를 크게 향상시켰다. 향후 연구에서는 비클래식 장르, 실시간 시스템, 그리고 악기별 다중 피치 동시 추정과의 공동 학습을 통해 모델의 일반화와 응용 범위를 넓히는 방향이 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기