멀티태스크 학습을 활용한 피아노 다성 전사 사례 연구
본 논문은 다성 피아노 전사 작업을 온셋, 중간 프레임, 오프셋, 타건 속도, 서스테인 페달 5가지 목표로 동시에 예측하는 멀티태스크 학습으로 재구성한다. MAESTRO 대규모 데이터셋을 이용해 하드 파라미터 공유와 크로스‑스티치 두 가지 컨볼루션 신경망 구조를 비교하고, 추가 목표가 주요 전사 성능에 미치는 영향을 정량화한다. 실험 결과, 보조 목표를 포함한 멀티태스크 학습이 특히 온셋과 오프셋 예측을 크게 향상시키며, 크로스‑스티치 방식이 …
저자: Rainer Kelz, Sebastian B"ock, Gerhard Widmer
본 논문은 피아노 다성 전사(Multi‑polyphonic piano transcription)를 멀티태스크 학습(Multi‑task learning) 관점에서 재구성하고, 추가적인 예측 목표가 전사 성능에 미치는 영향을 체계적으로 조사한다. 전통적인 다성 전사는 동시에 여러 음을 인식해야 하는 멀티라벨 문제이며, 최종적으로는 음표의 시작(온셋), 지속(중간 프레임), 종료(오프셋) 정보를 포함한 구조적 예측을 목표로 한다. 저자들은 이러한 기본 목표 외에 타건 속도와 서스테인 페달 상태라는 두 개의 연속형 회귀 목표를 도입해 라벨 밀도를 인위적으로 높이고, 네트워크가 더 풍부한 학습 신호를 활용하도록 설계하였다.
연구 배경에서는 멀티태스크 학습과 전이 학습(Transfer Learning)의 차이를 명확히 하고, 멀티태스크가 동시에 여러 태스크에 대한 공유 표현을 학습함으로써 라벨이 희소한 태스크(예: 온셋·오프셋)의 학습을 촉진할 수 있음을 강조한다. 기존 연구(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기