음악과 가사 융합 변분 오토인코더 기반 아티스트 스타일 가사 생성

본 논문은 “아티스트 스타일에 맞는 가사 라인 생성”이라는 목표를 위해 변분 오토인코더(VAE)와 멀티모달 아티스트 임베딩을 결합한 시스템을 설계하고, 그 효과를 실험적으로 검증한다. 연구 배경으로는 기존 텍스트 생성 모델이 감성, 페르소나 등 제한된 조건에만 초점을 맞추었으며, 음악과 가사를 동시에 고려한 연구는 거의 없었다는 점을 들었다. 저자들은 아티스트의 음악적 특성이 가사 스타일에도 영향을 미친다고 가정하고, 이를 정량화하기 위해 오디오와 텍스트 두 모달리티를 연결한다. 데이터는 7명의 아티스트(Art Rock, Electronic, Industrial, Classic Rock, Alternative, Hard Rock, Psychedelic Rock)로부터 수집했으며, 총 34,000개의 가사 라인과 21,235개의 10초 멜 스펙트로그램을 확보했다. 오디오 측면에서는 사전 학습된 VGG‑16을 기반으로 3개의 완전 연결층(512‑128‑50)과 30% dropout을 추가해 아티스트 분류 모델을 학습했으며, 테스트 정확도는 83%에 달한다. 이 모델의 마지막 은닉층 출력(50차원)을 아티스트 임베딩으로 사용한다. 텍스트 측면에서는 사전 학습된 300차원 word2vec(2.5M 라인) 임베딩을 입력으로, 양방향 LSTM(100 hidden) 인코더와 LSTM 디코더를 갖는 VAE를 구축했다. 디코더 입력에 매 타임스텝마다 아티스트 임베딩을 concatenate함으로써, 잠재 변수 z와 아티스트 특성이 동시에 디코딩에 반영되도록 설계했다. KL 발산 가중치는 3000 iteration까지 선형적으로 증가시켰고, 디코더 입력 단어 dropout을 0.5로 적용해 일반화를 도모했다. 모델 변형은 크게 두 축으로 나뉜다. 첫 번째 축은 임베딩 초기화 방식(무작위 vs 사전 학습)이며, 두 번째 축은 임베딩 학습 가능 여부(고정 vs 학습)이다. 이에 따라 VAE+onehot, VAE+randT, VAE+randNT, VAE+audioT, VAE+audioNT 다섯 가지 모델을 비교했다. 평가는 세 단계로 진행되었다. 1) 스타일 분류 정확도: 원본 가사에 대해 학습한 CNN 텍스트 분류기의 정확도는 60%였으며, 무작위 임베딩 모델은 26‑39% 수준이었다. 사전 학습된 임베딩을 사용한 VAE+audioNT는 42%로 가장 높은 점수를 얻어, 오디오 기반 임베딩이 텍스트 스타일 전이에 기여함을 보여준다. 2) 언어 모델 점수: 각 아티스트별 Kneser‑Ney 3‑gram 언어 모델을 구축하고, 생성 라인의 NLL을 측정했다. VAE+audioNT는 7명 중 6명의 경우 해당 아티스트 언어 모델이 가장 낮은 NLL을 기록, 스타일 일관성이 높음을 시사한다. 3) 인간 평가: 3명의 평가자가 100개 라인씩을 검토했으며, VAE+audioT와 VAE+audioNT가 대부분의 경우 가장 많은 라인을 ‘스타일에 부합’한다고 판단했다. Cohen’s κ가 낮은 것은 평가자의 주관적 차이를 반영한다. 결과적으로, 오디오에서 추출한 사전 학습 임베딩이 가사 생성 모델에 유의미한 스타일 정보를 제공한다는 결론에 도달한다. 그러나 임베딩이 VAE 내부에서 어떻게 활용되는지는 블랙박스 형태이며, 아티스트 간 임베딩 거리와 실제 가사 스타일 차이 간의 정량적 관계는 추가 연구가 필요하다. 향후 연구 방향으로는 스펙트로그램 자동인코더, 멀티모달 공동 학습 프레임워크, 적대적 학습을 통한 스타일 강화, 그리고 더 다양한 장르와 대규모 데이터셋을 활용한 확장이 제시된다.

음악과 가사 융합 변분 오토인코더 기반 아티스트 스타일 가사 생성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기