MIDI 기반 노래 제작 파이프라인, 가벼운 모듈로 고품질 음악 생성
본 논문은 가사와 텍스트 설명을 입력으로 전체 곡을 생성하는 기존 엔드‑투‑엔드 방식의 한계를 지적하고, 멜로디 작곡·보컬 합성·반주 생성의 세 단계로 구성된 모듈형 파이프라인을 제안한다. 핵심은 보컬 멜로디의 심볼릭 MIDI 정보를 활용해 반주를 조건화하는 “MIDI‑ informed Singing Accompaniment Generation (MIDI‑SAG)”이며, 이를 통해 리듬·하모니 정렬을 크게 개선하고, 보컬이 없는 구간에서도 일관…
저자: Fang-Duo Tsai, Yi-An Lai, Fei-Yueh Chen
본 논문은 “가사와 텍스트 설명만으로 전체 곡을 자동 생성하는” 기존 엔드‑투‑엔드 접근법이 갖는 데이터·연산 비용과 편집 불가능성 문제를 해결하고자, 음악 제작의 전통적인 워크플로우를 모방한 컴포지셔널 파이프라인을 제안한다. 파이프라인은 크게 네 개의 모듈로 구성된다: (1) 가사와 텍스트 설명을 입력으로 멜로디를 작곡하고 이를 심볼릭 MIDI 형태로 출력하는 Melody‑Band, (2) 생성된 MIDI와 가사를 기반으로 고품질 보컬 오디오를 합성하는 Vocal‑Band, (3) MIDI를 화성적으로 분석해 코드 진행(C)을 생성하는 Melody‑Harmonization, (4) 최종적으로 MIDI, 코드 진행, 보컬 오디오, 텍스트 설명을 모두 조건으로 반주를 생성하는 Accomp‑Band.
핵심 기여는 4번 모듈, 즉 “MIDI‑informed Singing Accompaniment Generation (MIDI‑SAG)”이다. 기존의 오디오‑기반 반주 생성 모델은 보컬 오디오만을 입력으로 받아 리듬과 화성을 암묵적으로 학습해야 했으며, 이는 대규모 데이터와 연산이 필요하고, 특히 보컬이 없는 구간에서 박자·화성 일관성이 깨지는 문제를 야기했다. 저자는 보컬 멜로디를 심볼릭 MIDI 형태로 명시적으로 제공함으로써, 정확한 박자·강세 정보를 직접 전달하고, 별도 화성 분석 모듈을 통해 얻은 코드 진행(C)을 추가 조건으로 사용한다. 이중 조건은 (i) 리듬 정밀도 향상, (ii) 화성 일관성 강화, (iii) 보컬이 없는 구간에서도 구조적 일관성을 유지하도록 돕는다.
구조적 완전성을 확보하기 위해, 저자는 라틴시드 기반의 오디오 확산 모델을 활용하고, 두 가지 보조 전략을 도입한다. 첫째, “섹션‑앵커드 슬라이싱”은 생성 윈도우를 곡의 기능적 구간(인트로, 벌스, 코러스 등) 경계에 맞춰 정렬함으로써 섹션 간 전환이 자연스럽게 이루어지도록 한다. 둘째, “백워드 컨티뉴에이션”은 보컬이 없는 인트로 구간에서 초기 컨디션이 부족한 문제를 해결하기 위해, 학습 시 해당 구간을 뒤쪽 보컬 구간으로 대체하는 확률적 샘플링을 적용한다. 이를 통해 전체 트랙이 일관된 스타일과 화성을 유지한다.
데이터 효율성 측면에서, 저자는 2.5 k시간 규모의 팝 음악 데이터만을 사용해 전체 파이프라인을 학습했으며, 학습은 RTX 3090 한 대에서 수행되었다. 이는 기존 대규모 오픈소스 엔드‑투‑엔드 모델(예: SongBloom, DiffRhythm 등)이 40 k시간 이상과 다수의 GPU를 필요로 하는 것에 비해 현저히 적은 자원이다. 실험 결과, 객관적 메트릭(리듬 정확도, 화성 일치도, PESQ 등)과 주관적 청취 평가 모두에서 최신 엔드‑투‑엔드 모델과 동등하거나 우수한 성능을 보였으며, 특히 중간 표현(MIDI, 코드 진행)을 직접 수정함으로써 사용자가 원하는 부분만 편집할 수 있는 높은 편집 가능성을 입증했다.
또한, 보컬 MIDI가 없는 경우를 대비해 자동 MIDI 추출 파이프라인을 제시한다. 여기에는 오픈소스 음성‑투‑MIDI 변환기(SOME)와 맞춤형 비트 감지기, 그리고 무음 구간에서 BPM을 보간하는 후처리 단계가 포함된다. 이 과정을 통해 실제 서비스 환경에서 입력이 보컬 오디오만인 경우에도 MIDI‑SAG를 적용할 수 있다.
논문의 한계로는 현재 팝 장르에 특화된 데이터셋에 의존하고 있어 장르 다양성에 대한 일반화가 제한적이며, 실시간 응용을 위한 지연 시간 분석이 부족하다는 점을 들 수 있다. 향후 연구에서는 멀티‑트랙 MIDI 지원, 다양한 문화·장르 데이터 확장, 경량화된 실시간 추론 모델 개발 등을 통해 시스템을 보강할 필요가 있다.
결론적으로, 이 연구는 심볼릭 MIDI와 화성 정보를 활용한 반주 생성이라는 새로운 패러다임을 제시함으로써, 데이터·연산 효율성과 편집 가능성을 동시에 달성한 컴포지셔널 음악 생성 파이프라인을 구현하였다. 향후 음악 제작 도구와 AI 기반 작곡 시스템에 적용될 가능성이 크다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기