신경망 기반 음악 오디오 인페인팅: 64ms 결손 복원

본 논문은 10~100 ms 정도의 짧은 구간이 손실된 음악 및 악기 소리를, 주변 컨텍스트를 이용해 복원하는 딥러닝 기반 오디오 인페인팅 방법을 제안한다. 시간‑주파수(STFT) 계수를 입력으로 하는 컨텍스트 인코더(Encoder‑Decoder) 구조를 설계하고, 복원된 magnitude에 위상 재구성을 결합해 최종 파형을 생성한다. 동일한 조건의 선형예측(LPC) 방법과 비교했을 때, 음악 데이터에서 유의미하게 높은 객관·주관 평가 점수를 …

저자: Andres Marafioti, Nicki Holighaus, Piotr Majdak

신경망 기반 음악 오디오 인페인팅: 64ms 결손 복원
**1. 서론** 오디오 신호는 전송·저장 과정에서 부분적인 손실이나 손상이 발생할 수 있다. 이러한 결손을 복원하는 작업을 “오디오 인페인팅”이라 부르며, 청취자가 결손을 인지하지 못하도록 자연스럽게 메꾸는 것이 목표다. 기존 연구는 (a) 10 ms 이하의 초단시간 결손을 선형예측(LPC)이나 희소성 기반 OMP 등으로 복원하거나, (b) 수백 ms 이상의 장기 결손을 자기유사성·그래프 기반 기법으로 메꾸는 두 갈래로 나뉘었다. 그러나 10~100 ms 정도의 중간 구간은 비정상성이 급격히 나타나면서도 샘플‑단위 예측이 가능한 영역으로, 아직 충분히 탐구되지 않았다. **2. 관련 연구** 딥러닝은 이미지·음성 분야에서 성공을 거두었으며, 이미지 복원에 사용된 “컨텍스트 인코더(Context Encoder)”가 오디오에도 적용 가능하다는 점을 착안했다. 음악 합성에서는 VAE·GAN 등 생성 모델이 활용됐지만, 직접적인 결손 복원에는 아직 적용 사례가 적다. 또한, 기존 오디오 인페인팅 방법들은 주로 시간‑주파수(TF) 특성을 이용해 전역적인 유사성을 찾는 방식이었으며, 샘플‑단위 예측을 목표로 하지 않았다. **3. 제안 방법** 본 논문은 “오디오 컨텍스트 인코더”라는 이름으로, 결손 전후의 컨텍스트를 입력으로 받아 결손 구간의 TF magnitude를 예측하는 Encoder‑Decoder 구조를 제안한다. - **전처리**: 입력 신호 s는 STFT(길이 M=512, Hann 윈도우, hop =M/4)로 변환되어 실수·허수 파트를 각각 채널로 만든 4‑채널 텐서(S_Re^b, S_Im^b, S_Re^a, S_Im^a)로 구성한다. 컨텍스트는 결손 길이보다 3배 큰 제로패딩을 통해 경계 효과를 최소화한다. - **인코더**: 6개의 2‑D 컨볼루션 레이어와 ReLU, 배치 정규화를 순차적으로 적용해 입력을 2048 차원의 잠재 벡터로 압축한다. - **디코더**: 잠재 벡터를 완전 연결층(FCL)으로 확장한 뒤, 5개의 디컨볼루션 레이어를 통해 결손 구간에 대응하는 magnitude 스펙트럼(257 × 11)을 출력한다. 복합형(실수·허수) 출력을 원할 경우 마지막 레이어를 두 개로 분리한다. - **후처리**: 디코더가 만든 magnitude에 대해 Phase Gradient Heap Integration을 초기 위상으로 적용하고, Griffin‑Lim 알고리즘을 100회 반복해 위상을 정제한다. 완성된 복합 TF 계수를 원래 컨텍스트와 결합한 뒤 역STFT로 시간‑도메인 신호 ŝ를 복원한다. - **손실 함수**: 단순 MSE는 신호 에너지에 민감하므로, 정규화 MSE(NMSE)와 가중 평균을 결합한 F(S_g, Ŝ_g)=‖S_g−Ŝ_g‖² c⁻¹ + ‖S_g‖² (c=5) 를 사용한다. 전체 손실은 여기에 L2 정규화 항 λ‖w‖² (λ=0.01) 을 더한다. **4. 실험 및 평가** 두 종류의 데이터셋(악기 소리, 음악 트랙)을 각각 64 ms 결손을 포함하도록 전처리하고, 동일한 네트워크를 학습시켰다. 평가 지표는 (1) 객관적 신호‑대‑신호(SNR, LSD)와 (2) 주관적 청취 테스트(MOS)이다. 베이스라인은 LPC 기반 결손 보간 방법을 사용하였다. - **결과**: 음악 데이터에서 DNN은 평균 SNR + 3 dB, LSD − 0.8 dB, MOS + 1.2점(5점 만점) 향상을 보였으며, 특히 복잡한 화음·리듬이 포함된 구간에서 LPC보다 현저히 우수했다. 악기 소리에서는 DNN이 LPC과 비슷한 수준이지만, 전체적으로 일관된 복원을 제공했다. - **결손 길이 변화**: 32 ms, 64 ms, 128 ms로 길이를 변동시켰을 때, DNN의 성능 저하는 점진적이었으며, LPC은 64 ms 이상에서 급격히 성능이 떨어졌다. **5. 논의** 제안 모델은 컨텍스트 기반 TF magnitude 예측에 성공했으며, 위상 복원 단계는 별도 알고리즘에 의존한다는 점이 남는다. 또한, 현재는 음악·악기 별로 모델을 별도 학습했으므로, 다중 장르·다양한 악기를 동시에 다루는 일반화 모델 구축이 향후 과제로 남는다. 실시간 적용을 위해서는 모델 경량화와 위상 예측을 통합한 엔드‑투‑엔드 구조가 필요하다. **6. 결론** 본 연구는 10~100 ms 구간의 오디오 결손을 복원하는 데 딥러닝 기반 컨텍스트 인코더가 효과적임을 입증하였다. 특히 복잡한 음악 신호에서 기존 LPC 기반 방법을 능가하는 성능을 보였으며, 향후 위상‑통합 네트워크와 다양한 오디오 도메인 확장을 통해 실용적인 오디오 인페인팅 시스템으로 발전할 가능성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기