리드 시트와 편곡 자동 생성: 조건부 GAN 기반 모델
본 논문은 리드 시트(멜로디와 코드 라벨)와 다중 트랙 MIDI를 연결하는 새로운 과제인 “리드 시트 편곡”을 정의하고, 이를 위해 순환‑컨볼루션 구조의 조건부 생성적 적대 신경망(CGAN)을 설계한다. 세 가지 심볼릭 하모니 특성(크로마 피아노롤, 크로마 비트, 코드 피아노롤)을 추출해 비정형 데이터셋 간의 도메인 격차를 메우며, 8마디 길이의 리드 시트와 5트랙(스트링, 피아노, 기타, 드럼, 베이스) 편곡을 동시에 생성한다. 객관적 지표와…
저자: Hao-Min Liu, Yi-Hsuan Yang
본 논문은 자동 음악 생성 분야에서 아직 충분히 다루어지지 않은 “리드 시트 편곡(lead sheet arrangement)”이라는 새로운 과제를 정의하고, 이를 해결하기 위한 조건부 생성적 적대 신경망(CGAN) 기반 모델을 제안한다. 기존 연구는 리드 시트(멜로디와 코드 라벨만 포함) 혹은 다중 트랙 MIDI(피아노롤 형태) 중 하나에 초점을 맞추어 왔으며, 각각 화성 구현 부족 또는 멜로디·코드 트랙 식별 어려움이라는 한계를 가지고 있었다. 저자들은 이 두 형식의 장점을 결합해, 리드 시트를 입력 조건으로 삼아 다중 트랙(스트링, 피아노, 기타, 드럼, 베이스) 편곡을 동시에 생성하는 프레임워크를 설계하였다.
모델은 크게 세 단계로 구성된다. 첫 번째 단계는 8마디 길이의 리드 시트를 생성하는 부분이다. 여기서는 기존 MuseGAN에서 사용된 바‑단위 생성기(G₍bar₎)를 그대로 활용하면서, 바 사이의 시간 의존성을 담당하는 템포럴 제너레이터(G₍temp₎)를 2‑layer RNN으로 교체하였다. 이는 리드 시트가 반복적인 구절 구조와 일정한 리듬 패턴을 갖는 특성에 더 적합하도록 설계된 것이다. 두 번째 단계는 특성 추출 단계로, 리드 시트와 MIDI 모두에 적용 가능한 세 가지 심볼릭 하모니 특성을 만든다. 첫 번째는 옥타브를 무시하고 12개의 피치 클래스로 압축한 “크로마 피아노롤(chroma‑roll)”이며, 두 번째는 이를 비트 단위(12 타임스텝당 평균)로 축소한 “크로마 비트(chroma‑beats)”이다. 세 번째는 오디오 합성을 거쳐 DeepChroma 기반 자동 코드 인식으로 24개의 메이저·마이너 코드를 추출하고, 이를 84×48 차원의 “코드 피아노롤(chord‑roll)” 형태로 변환한다. 이 세 특성은 모두 동일한 파이프라인을 통해 추출되므로, 리드 시트와 MIDI 사이의 도메인 격차를 효과적으로 메울 수 있다.
세 번째 단계는 편곡 생성이다. 여기서는 조건부 바‑제너레이터 G(c)₍bar₎와 판별기 D(c)₍c₎를 CNN으로 구현하고, 추출된 하모니 특성을 인코더 E를 통해 중간 레이어에 삽입한다. 이렇게 하면 판별기 역시 조건을 인식해 보다 정교한 피드백을 제공하게 된다. 편곡은 1마디 단위로 순차적으로 생성되며, 8마디 전체가 완성될 때까지 반복한다. 학습은 Wasserstein GAN with Gradient Penalty(WGAN‑GP)를 사용해 안정적인 수렴을 도모하였다.
데이터셋으로는 TheoryTab(리드 시트)와 Lakh Piano‑roll(멀티트랙 MIDI)를 사용하였다. TheoryTab은 16,000개의 리드 시트 세그먼트를 XML 형식에서 파싱해 멜로디와 코드 피아노롤 두 트랙으로 변환했으며, 모든 곡을 C키 기준으로 전처리하였다. Lakh Piano‑roll은 21,425개의 5‑track 피아노롤을 포함하고, 모든 곡을 C키로 전조했다. 두 데이터셋 모두 4/4 박자를 유지했으며, 모델 입력은 48 타임스텝(16분음표 해상도)과 84개의 피치( C1~B7 )를 사용한다.
실험에서는 객관적 지표(Empty Bars, Used Pitch Classes, Pitch Class Entropy 등)와 주관적 청취 평가를 병행했다. 리드 시트 생성 단계에서는 기존 MuseGAN 대비 빈 바 비율 감소와 피치 클래스 다양성 증가를 보였으며, 편곡 단계에서는 세 가지 하모니 특성 중 크로마 비트가 가장 높은 주관적 만족도를 얻었다. 이는 시간 해상도를 적절히 낮춤으로써 모델이 구조적 패턴을 더 잘 학습했음을 의미한다. 또한, 조건부 판별기를 사용한 것이 편곡의 화성 일관성과 트랙 간 상호작용을 크게 향상시켰다.
논문의 주요 기여는 다음과 같다. (1) 리드 시트와 MIDI를 연결하는 새로운 과제인 “리드 시트 편곡”을 정의하고, (2) 비정형 데이터 간 도메인 격차를 메우는 세 가지 심볼릭 하모니 특성을 설계했으며, (3) 순환‑컨볼루션 구조의 조건부 GAN을 도입해 8마디 리드 시트와 5트랙 편곡을 동시에 생성했다. 한계점으로는 현재 8마디 길이 제한, 전조에 의존한 키 처리, 그리고 자동 코드 인식 과정에서 발생할 수 있는 오류가 있다. 향후 연구에서는 더 긴 곡 구조, 다중 키 지원, 그리고 오디오‑텍스트 멀티모달 조건을 결합한 확장 모델을 탐색할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기