스코어에서 살아있는 음악으로 PerformanceNet의 다중대역 잔차 네트워크
PerformanceNet은 피아노롤(악보)과 스펙트로그램(오디오) 사이의 매핑을 학습하는 두 단계 컨볼루션 모델이다. ContourNet은 U‑Net 기반으로 기본 음향 윤곽을 생성하고, TextureNet은 다중대역 잔차 블록을 이용해 오버톤과 음색 텍스처를 정교화한다. 바이올린, 첼로, 플루트 3종에 대해 중간 규모 데이터셋으로 학습했으며, 사용자 청취 실험에서 기존 WaveNet 기반 모델 및 상용 합성기보다 자연스러움·표현력에서 높은 …
저자: Bryan Wang, Yi-Hsuan Yang
본 논문은 악보(피아노롤)와 실제 연주 음향(스펙트로그램) 사이의 직접적인 매핑을 학습함으로써, 인간 연주자의 미세한 타이밍·다이내믹스·음색 변화를 자동으로 재현하는 “AI 퍼포머” 시스템을 제안한다. 기존 연구는 주로 기호적(심볼릭) 음악 생성에 머물렀으며, 실제 오디오를 생성하려면 복잡한 파라미터 튜닝이 필요했다. 저자들은 이러한 문제를 해결하기 위해 완전 컨볼루션 기반의 두 단계 네트워크, ContourNet과 TextureNet을 설계하였다.
ContourNet은 비대칭 U‑Net 구조로, 피아노롤을 입력받아 기본적인 스펙트로그램 형태를 출력한다. 인코더는 1D 컨볼루션을 통해 시간 축을 압축하면서 채널 수를 점진적으로 늘리고, 디코더는 역컨볼루션으로 복원한다. 스킵 연결을 통해 피치와 지속 정보를 보존함으로써, 저해상도 이진 매트릭스가 고해상도 실수형 스펙트로그램으로 변환되는 과정에서 중요한 음악적 특성이 손실되지 않는다.
TextureNet은 ContourNet이 만든 초기 스펙트로그램을 입력으로 받아, 다중대역 잔차 블록을 사용해 주파수 해상도를 단계적으로 향상시킨다. 전체 스펙트로그램을 k개의 주파수 밴드로 나누고, 각 밴드에 독립적인 잔차 블록을 적용함으로써 오버톤과 음색 텍스처를 정교하게 재현한다. 이 설계는 이미지 초해상도에서 영감을 얻었으며, 특히 음악에서는 시간 정보가 이미 ContourNet에 의해 충분히 처리되었으므로 주파수 축에만 집중할 수 있다.
악보의 음 시작·종료 정보를 명시적으로 활용하기 위해 별도의 onset/offset 인코더를 도입했으며, 이 인코더의 출력은 ContourNet의 bottleneck에 결합되어 노트 경계와 지속 시간을 정확히 반영한다. 최종적으로 생성된 스펙트로그램은 Griffin‑Lim 알고리즘을 통해 위상을 복원하고, 파형으로 변환된다.
실험에서는 바이올린, 첼로, 플루트 3종 악기에 대해 약 5시간 분량의 데이터셋을 구축하고, 각각의 모델을 학습시켰다. 평가를 위해 156명의 청취자를 대상으로 MOS 설문을 진행했으며, 자연스러움과 감정 표현력 두 측면에서 기존 WaveNet 기반 모델 및 두 상용 샘플러(예: Native Instruments, EastWest)보다 평균 0.4~0.6점 높은 점수를 기록했다. 특히 TextureNet이 추가된 모델은 오버톤 재현과 다이내믹스 변화에서 현저히 개선된 결과를 보였다.
논문의 주요 기여는 (1) 악보와 오디오 사이의 이미지‑투‑이미지 변환 및 초해상도 문제를 동시에 해결하는 새로운 네트워크 아키텍처, (2) 다중대역 잔차 블록을 통한 주파수 텍스처 정제, (3) 제한된 데이터에서도 효율적으로 학습 가능한 경량 모델 제시이다. 한편, 현재는 단일 악기·단일 트랙에만 적용 가능하므로, 멀티트랙 합성, 스타일·감정 조건화, 실시간 생성 등 향후 연구 과제가 남아 있다. 또한, Griffin‑Lim 기반 위상 복원 대신 신경망 기반 위상 예측을 도입하면 더욱 자연스러운 파형을 얻을 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기