경량 음악 텍스처 전송 시스템

본 논문은 음악 텍스처 전송을 위한 경량화된 엔드‑투‑엔드 시스템을 설계·구현하고, 이를 오픈소스로 공개한다. 시스템은 크게 세 부분으로 구성된다. 첫 번째는 audio‑2‑img 변환기로, 입력 오디오를 STFT를 통해 시간‑주파수 스펙트럼으로 변환하고, magnitude를 데시벨(dB) 스케일로 정규화한다. 여기서 잡음 억제를 위해 히스토리컬 노이즈 마스크(HdB)를 적용하고, 임계값 λ(0.618)를 사용해 비음성 성분을 차단한다. 변환된 1‑채널 스펙트럼은 3‑채널(RGB) 이미지로 매핑되어 이미지 기반 CNN에 적합한 형태가 된다. 두 번째는 피드‑포워드 생성 네트워크이다. Johnson et al.의 이미지 스타일 전송 네트워크를 변형한 구조로, 인스턴스 정규화와 5개의 Residual Block, 전치(convolution) 레이어, 최종 tanh 활성화를 포함한다. 손실 함수는 사전 학습된 VGG‑19를 이용해 정의한다. 콘텐츠 손실은 생성 스펙트럼과 원본 콘텐츠 스펙트럼 사이의 L2 차이로, 텍스처 손실은 Gram Matrix를 이용한 스타일 손실로 계산한다. 총 변동 정규화(L_tv)도 포함해 공간적 부드러움을 유도한다. 가중치 α, β, γ는 각각 7.5, 500, 200으로 설정해 텍스처 변환을 강조한다. 학습은 FMA 데이터셋에서 10 s 구간을 추출한 106 574곡을 사용해 배치 크기 16, 10 에폭, 학습률 0.001로 진행한다. 세 번째는 img‑2‑audio 재구성기로, 3‑채널 RGB 스펙트럼을 역변환해 단일 채널 dB 스펙트럼으로 복원한다. 이후 역 STFT와 Griffin‑Lim 알고리즘을 100회 반복해 위상 정보를 추정하고, 최종 오디오를 생성한다. 이 과정은 실시간성을 고려해 효율적으로 구현되었다. 시스템 구현체는 MusiCoder라는 웹·PC 클라이언트 형태로 제공된다. 사용자는 10 s 길이의 입력 음악을 선택하고, 목표 텍스처(‘Future’, ‘Laser’, ‘Water’)와 출력 품질을 지정하면, 서버에서 변환이 수행되어 결과를 다운로드할 수 있다. 평가에서는 두 명의 인간 편집자(전문가·아마추어)와 시스템 출력을 비교해 MOS를 수집했다. 평가 항목은 텍스처 일치도, 콘텐츠 보존도, 자연스러움이며, MUSHRA 방식의 숨은 레퍼런스를 포함해 신뢰성을 높였다. 결과는 시스템이 텍스처 일치도 평균 3.71 점, 콘텐츠 보존도 평균 3.91 점을 기록해 인간 편집자와 비슷하거나 더 높은 점수를 얻었다. 자연스러움 테스트에서도 시스템이 가장 자연스럽다고 평가받았다. 컴퓨팅 성능 측면에서는 평균 실행 시간 0.18 초, 최대 메모리 사용량 190 MB를 기록해, 저사양 클라우드 서버에서도 실시간 서비스가 가능함을 입증했다. 논문의 주요 기여는 (1) 재구성 가능한 스펙트럼 표현과 텍스처 변환 네트워크를 통합한 엔드‑투‑엔드 알고리즘, (2) 최초의 실용적인 음악 텍스처 전송 시스템 구현 및 오픈소스 공개, (3) 텍스처·콘텐츠·자연스러움을 포괄적으로 평가하는 새로운 메트릭 제시이다. 한편 제한점으로는 이미지 전용 VGG‑19 손실 네트워크가 음악 특성에 최적화되지 않아 손실 설계가 개선될 여지가 있다. Griffin‑Lim 기반 위상 복원은 고음질 요구에 부적합할 수 있으며, 현재는 세 가지 사전 정의된 텍스처에만 적용 가능하다는 점도 있다. 향후 연구에서는 음악 전용 특성 추출기, 위상‑시간 혼합 손실, 사용자 정의 텍스처 학습 등을 통해 시스템을 확장하고, 보다 다양한 장르와 실시간 인터랙션을 지원하는 방향으로 나아갈 수 있다.

경량 음악 텍스처 전송 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기