음악 작곡을 위한 새로운 변분 순환 신경망

본 논문은 CNN 기반 특징 추출과 변분 오토인코더(VAE)를 결합한 Convolutional‑Variational Recurrent Neural Network(CVRNN)를 제안한다. 바 단위의 피아노 롤을 2‑D 이미지처럼 처리해 공간적 관계를 학습하고, GRU 기반 인코더‑디코더 구조에 잠재 변수 z를 삽입해 음악의 고차원 구조와 변화를 모델링한다. 평가에는 변동 마코프 오라클(Variable Markov Oracle, VMO)로 측정한 …

저자: Eunjeong Stella Koh, Shlomo Dubnov, Dustin Wright

음악 작곡을 위한 새로운 변분 순환 신경망
본 논문은 음악 작곡을 위한 새로운 딥러닝 프레임워크인 Convolutional‑Variational Recurrent Neural Network(CVRNN)를 제안한다. 기존의 RNN‑기반 모델은 시계열 데이터를 한 차원으로만 처리해 멜로디와 화성의 복합적인 관계를 충분히 포착하지 못한다는 한계가 있었다. 이를 보완하기 위해 저자들은 피아노 롤을 2‑D 바이너리 이미지 형태로 변환하고, 두 개의 컨볼루션 레이어와 풀링 레이어를 거쳐 고차원 특징 m(t) 를 추출한다. 이 과정은 음악의 수평적(시간)·수직적(음높이) 구조를 동시에 학습하도록 설계되었다. 특징 추출 후에는 변분 오토인코더(VAE)의 개념을 순환 신경망에 적용한다. 인코더 GRU는 시퀀스 m(1)…m(T) 를 입력받아 최종 은닉 상태 h(T) 를 만든 뒤, 이를 선형 변환해 평균 µ와 분산 σ를 계산한다. 재파라미터화 트릭을 이용해 z = µ + σ·ε (ε∼N(0, I)) 를 샘플링하고, 이 잠재 변수 z 를 디코더 GRU의 초기 입력으로 사용한다. 디코더는 매 타임스텝마다 변환된 m(t) z와 이전 은닉 상태를 결합해 다음 바의 피아노 롤을 예측한다. 출력은 시그모이드 활성화를 거쳐 0‑1 확률 맵으로 변환되며, 교차 엔트로피 손실을 통해 실제 입력과 비교한다. 전체 손실 함수는 ELBO 형태로, KL‑다이버전스가 잠재 변수의 독립성을 강제하고 재구성 손실이 데이터 복원을 담당한다. 학습 데이터는 Nottingham 데이터셋(1200곡)의 바‑레벨 피아노 롤이며, 8번째 음표 해상도로 16 타임스텝(8바) 배치를 만든다. 배치당 8바를 입력으로 사용하고, 전체 곡을 겹치지 않게 순차적으로 학습한다. 최적화는 Adam(learning rate = 0.001)으로 진행하고, 그래디언트 클리핑(L2 norm < 10)과 드롭아웃을 적용해 과적합을 방지한다. 모델은 약 200 epoch 후 수렴한다. 성능 평가는 기존 MelodyRNN(PolyphonyRNN, AttentionRNN) 및 MidiNet과 비교한다. 평가 지표는 Variable Markov Oracle(VMO) 기반 Information Rate(IR)이다. VMO는 오디오에서 추출한 크로마 특징을 문자열로 변환하고, Factor Oracle 알고리즘을 이용해 반복 구간을 탐색한다. 다양한 유사도 임계값 θ 에 대해 압축 효율을 계산하고, 최적 θ 에서 얻은 IR 값을 사용한다. 높은 IR은 음악이 일정 수준의 반복성을 유지하면서도 변화를 제공한다는 의미이다. 실험 결과, CVRNN은 8바, 16바, 32바 길이 모두에서 원본 데이터의 IR에 근접하거나 이를 초과했으며, PolyphonyRNN·AttentionRNN 대비 평균 +10% 이상의 향상을 보였다. 특히 32바 구간에서 원본 IR 18567에 가장 가까운 16044를 기록, 장기 구조 유지 능력이 뛰어남을 입증했다. 논문은 또한 모델이 생성한 멜로디의 모티프(동기) 분석을 수행했으며, VMO가 탐지한 반복 구간이 인간 청취자가 인식하는 테마와 일치한다는 정성적 관찰을 제시한다. 그러나 평가가 IR과 모티프 탐지에 국한돼 있어 청취자 설문이나 음악 이론적 규칙과의 정량적 비교는 부족하다. 또한 실험이 Nottingham 데이터셋에만 적용돼 있어 다른 장르(클래식, 재즈, 팝)나 다양한 템포에 대한 일반화 가능성은 추가 연구가 필요하다. 결론적으로, CVRNN은 (1) CNN을 통한 공간적 음악 특징 학습, (2) VAE‑RNN의 확률적 잠재 변수 활용, (3) IR 기반 객관적 평가라는 세 축을 결합해 기존 RNN‑기반 생성 모델이 갖는 반복·단조 문제를 효과적으로 해결한다. 향후 연구에서는 멀티트랙(드럼·베이스 등) 통합, 실시간 인터랙티브 생성, 그리고 인간 청취자 평가와의 연계 등을 통해 실용성을 높일 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기