폴리포닉 피아노 악보 자동 전사를 위한 종단형 신경망 모델
본 논문은 피아노의 복합적인 음을 동시에 인식하는 자동 악보 전사 시스템을 제안한다. 음향 모델로는 DNN, RNN, ConvNet을 비교하고, 음악 언어 모델로는 RNN‑NADE를 도입해 음표 간의 시간적·조화적 상관관계를 학습한다. 두 모델의 출력을 확률 그래프와 빔 서치를 통해 결합하고, 해시 기반 효율적인 빔 서치로 실시간 추론을 가능하게 한다. 실험 결과 ConvNet 기반 음향 모델이 가장 높은 정확도를 보였으며, 언어 모델을 추가하…
저자: Siddharth Sigtia, Emmanouil Benetos, Simon Dixon
본 논문은 폴리포닉 피아노 음악 전사를 위한 종단형(end‑to‑end) 신경망 프레임워크를 제안한다. 전통적인 자동 악보 전사(Automatic Music Transcription, AMT) 시스템은 스펙트럼을 사전 정의된 기초 스펙트럼의 가중합으로 표현하거나, 비음성적(NMF, PLCA) 방법으로 음을 추출하는 방식을 사용해 왔다. 이러한 방법은 음원의 다양성, 하모닉 간섭, 그리고 다중 음의 조합으로 인한 출력 공간의 폭발적 증가 등으로 인해 한계가 있었다.
저자들은 음향 모델과 음악 언어 모델을 각각 딥러닝 기반으로 설계하고, 두 모델을 확률 그래프 형태로 결합해 최종 전사 결과를 도출한다. 음향 모델은 입력으로 단일 프레임 혹은 프레임 윈도우(2k+1)를 사용하며, 세 가지 아키텍처를 실험한다.
1. **Deep Neural Network (DNN)** – 전통적인 완전 연결 층을 사용해 프레임‑레벨 스펙트로그램(또는 CQT)으로부터 각 피치의 존재 확률을 추정한다. 활성화 함수는 sigmoid이며, 출력은 다중 이진 분류 형태이다.
2. **Recurrent Neural Network (RNN)** – 시간적 연속성을 고려해 순환 연결을 추가함으로써, 현재 프레임의 예측이 과거 프레임의 은닉 상태에 의존하도록 설계한다. 이는 짧은 시간 내의 음향 변화를 포착하는 데 유리하지만, 파라미터 수와 학습 난이도가 증가한다.
3. **Convolutional Neural Network (ConvNet)** – 시간‑주파수 2차원 입력을 그대로 활용해, 지역적인 필터를 통해 시간 및 주파수 축의 로컬 패턴을 학습한다. 풀링과 가중치 공유를 통해 파라미터 효율성을 높이고, 여러 프레임을 동시에 고려함으로써 화음과 같은 복합 음을 더 정확히 구분한다.
음향 모델의 출력은 각 시간 단계 t에서 피치 벡터 y_t에 대한 사후 확률 P(y_t|x_t) 형태로 제공된다.
음악 언어 모델은 고차원 이진 피아노 롤 시퀀스 y = {y_0, y_1, …}의 사전 확률 P(y) 를 모델링한다. 저자들은 RNN을 기반으로 한 **Neural Autoregressive Distribution Estimator (NADE)** 를 채택한다. RNN은 시퀀스 전반에 걸친 은닉 상태 h_t를 유지하고, 이 은닉 상태를 NADE의 파라미터(가중치와 바이어스)로 전달한다. NADE는 피치 i의 존재 확률을 이전 피치들의 조건부 확률 P(y_t(i) | y_t(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기