깊이 학습 기반 자유 즉흥 연주기
본 논문은 포스트톤 및 포스트리듬 피아노 음악을 위한 두 개의 소규모 상징적 코퍼스를 구축하고, 이를 기반으로 딥러닝 모델을 학습시켜 제한된 시드 입력에 대해 독창적인 음악을 생성할 수 있음을 통계적 검증과 청각적 평가를 통해 입증한다.
저자: Roger T. Dean, Jamie Forth
본 논문은 자유 즉흥 연주, 특히 포스트톤 및 포스트리듬 특성을 지닌 키보드 음악을 딥러닝으로 모델링하고, 제한된 시드 입력에 대해 독창적인 음악을 생성할 수 있는 프로토타입 시스템을 제안한다. 연구는 크게 네 단계로 진행된다.
첫째, 데이터 구축 단계에서는 두 개의 상징적 코퍼스를 만든다. ‘알고리즘 코퍼스’는 저자 자체 개발 알고리즘 6종을 13번 실행해 만든 16,484개의 이벤트(총 66,892노트)이며, ‘즉흥 코퍼스’는 저자가 직접 수행한 9개의 즉흥 연주를 녹음해 만든 13,466개의 이벤트(총 34,397노트)이다. 두 코퍼스 모두 다중 손(최대 4손) 피아노 연주를 전제로 하며, 이벤트당 최대 10개의 피치를 허용한다. 피치, 속도, 지속시간, 인터온셋 인터벌을 각각 0‑120, 0‑127, 0‑20초, 0‑20초의 연속형 값으로 정규화하고, 사용되지 않은 피치 슬롯은 -1로 채워 13차원 벡터를 구성한다.
둘째, 모델 설계 단계에서는 시계열 특성을 고려해 10개의 과거 이벤트(각 13차원)를 입력으로 사용한다. 두 가지 아키텍처를 실험했는데, 첫 번째는 dilated CNN만을 사용한 구조(64필터, 커널 4, dilation 8)이고, 두 번째는 동일한 CNN 뒤에 32유닛 LSTM을 연결한 CNN‑RNN 구조이다. 과적합 방지를 위해 각 레이어에 0.5 드롭아웃과 L2 정규화(λ=0.01)를 적용했으며, 학습은 Keras와 Theano 기반으로 수행했다. 데이터는 시간 순서대로 그대로 사용했으며, 자동 스케일링을 위해 robust scaling을 적용했다.
셋째, 모델 평가 단계에서는 검증 세트를 별도로 두고 평균 제곱 오차(RMSE)를 측정했다. 알고리즘 코퍼스에 대해 naïve 모델(다음 이벤트를 현재와 동일하게 예측) 대비 CNN은 전체 RMSE 397.04, CNN‑RNN은 180.36으로 크게 개선되었다. 피치1 RMSE는 15.49→11.54로 약 25% 감소했다. 즉흥 코퍼스에서는 CNN이 전체 RMSE 185.56, CNN‑RNN이 196.30으로 비슷한 수준을 보였으며, 피치1 RMSE 역시 16‑19 범위에 머물렀다. 이는 포스트톤 음악에서 절대 피치보다는 음정 흐름이 더 중요하다는 점을 감안하면 충분히 실용적이다.
넷째, 생성 및 특성 분석 단계에서는 외부 시드(1000노트 규모의 즉흥 연주)를 10‑event 윈도우로 모델에 입력하고, 예측된 이벤트를 순차적으로 시드에 추가한다. 이 과정을 반복하면 모델이 자체적으로 시퀀스를 이어가지만, 60번 이상의 연속 예측 후에는 출력이 정적인 값으로 수렴한다는 현상이 발견되었다. 따라서 실시간 즉흥 연주에 적용하려면 일정 간격으로 새로운 시드로 재시드해야 한다. 생성된 시퀀스가 학습 코퍼스와 시드와 통계적으로 구별되는지를 검증하기 위해 k‑sample Anderson‑Darling 및 Cramer 테스트를 수행했으며, 모두 유의미한 차이를 보였다. 청각적 평가에서도 생성된 음악이 알고리즘적·작곡된 음악과 비슷한 수준으로 인식되었다.
결론적으로, 이 연구는 포스트톤·포스트리듬 음악을 위한 상징적 데이터 표현, 딥러닝 기반 시계열 모델링, 그리고 통계·청각적 평가 방법을 일관되게 제시한다. 향후 작업으로는 모델 메모리 확장, residual 연결 도입, 실시간 인터랙션을 위한 온‑디맨드 시드 처리, 그리고 표현·의미·유용성 평가를 포함한 퍼포먼스 기반 검증이 제시된다. 이러한 방향은 딥러닝이 인간 즉흥 연주 파트너로서 실시간 협업할 수 있는 기반을 마련하는 데 중요한 발판이 될 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기