딥드럼 적응형 조건부 신경망

본 논문은 음악 생성 분야에서 특히 드럼 리듬을 자동으로 작곡하는 문제에 초점을 맞추었다. 기존의 LSTM 기반 음악 생성 모델은 멜로디·코드 진행 등 선형적인 시퀀스 학습에 강점이 있었지만, 드럼과 같은 퍼커션은 다른 악기와의 상호작용, 템포 변화, 비표준 박자와 같은 복합적인 제약을 동시에 고려해야 한다는 한계가 있었다. 이를 해결하고자 저자들은 DeepDrum이라는 새로운 신경망 구조를 제안한다. DeepDrum은 크게 두 부분으로 구성된다. 첫 번째는 전통적인 LSTM 블록으로, 드럼 이벤트(킥, 스네어, 하이햇 등)의 시간적 연속성을 학습한다. 이 블록은 2개의 스택된 LSTM 레이어와 256개의 은닉 유닛을 갖추고, 각 레이어 사이에 0.2의 드롭아웃을 적용해 과적합을 방지한다. 두 번째는 조건부 Feed‑Forward(FF) 레이어로, 외부 음악 정보를 명시적으로 네트워크에 제공한다. 조건부 입력은 베이스와 기타 음표, 템포, 메트릭 구조, 프레이징(그루핑) 정보를 포함하며, 원‑핫 인코딩 형태로 표현된다. 이 입력은 두 개의 서브 레이어인 Pre‑FF와 Post‑FF로 나뉜다. Pre‑FF는 과거 시점의 정보를 LSTM 입력에 병합해 현재 드럼 선택에 영향을 주고, Post‑FF는 현재·미래 시점의 정보를 LSTM 출력에 결합해 다음 타임스텝의 확률을 조정한다. 이렇게 함으로써 모델은 “조건부 생성”이라는 형태로, 학습된 스타일을 유지하면서도 외부 제약에 따라 유연하게 반응한다. 데이터는 70곡의 프로그레시브 록 곡을 웹 탭라투어에서 수집해 텍스트 기반 원‑핫 시퀀스로 전처리하였다. 각 곡은 드럼 파트별로 3개의 LSTM 블록에 입력되며, 조건부 입력은 별도의 2개의 FF 레이어를 통해 처리된다. 학습은 Keras와 TensorFlow를 이용해 수행되었으며, 에포크 수에 따라 모델의 생성 품질을 평가하였다. 실험에서는 훈련에 포함되지 않은 4개의 곡(시간 서명 3/8, 9/8 등)과 전혀 다른 장르인 디스코 스타일 곡 2개를 조건으로 제공했다. 모델은 초기 시드 시퀀스를 기반으로 다양한 에포크 단계에서 샘플을 생성했으며, 생성된 리듬의 특징을 기존 연구에서 정의한 리듬 메트릭(노트 밀도, 스윙 비율, 박자 강도 등)으로 정량화하였다. t‑SNE를 이용한 2차원 시각화 결과, 디스코 조건에서는 모델이 점차 해당 장르의 특징에 수렴했으며, 프로그레시브 록 조건에서는 생성된 리듬이 원본 곡의 특징 영역을 둘러싸는 형태를 보였다. 이는 조건부 레이어가 새로운 메트릭이나 시간 서명에도 유연하게 적응함을 의미한다. 조건부 레이어가 없는 경우 LSTM만으로는 외부 악기와 템포 정보를 반영하기 어려워, 생성된 리듬이 원본 스타일에만 머무르는 한계가 있었다. 반면, DeepDrum은 조건부 레이어를 통해 “인간 드러머”가 다른 악기와 상호작용하며 즉흥적으로 연주하는 모습을 모방한다. 특히 미래 시점 정보를 활용해 구절 전환이나 템포 변화에 선제적으로 대응하는 능력은 기존 음악 생성 모델에서 드물게 관찰되는 특징이다. 결론적으로, DeepDrum은 (1) LSTM 기반의 장기 시퀀스 학습, (2) 과거·현재·미래 컨텍스트를 제공하는 두 단계의 조건부 FF 레이어, (3) 멀티‑모듈 구조(드럼 파트별 LSTM)라는 세 가지 설계 원칙을 결합해, 학습된 스타일을 유지하면서도 훈련에 없던 제약을 만족하는 고품질 드럼 리듬을 자동 생성한다는 점에서 의미가 크다. 향후 연구에서는 더 다양한 악기와 다중 트랙을 동시에 다루는 확장, 실시간 인터랙티브 시스템으로의 적용, 그리고 조건부 입력을 음악 이론적 요소(예: 하모니, 다이내믹)까지 확대하는 방안을 탐색할 수 있다.

딥드럼 적응형 조건부 신경망

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기