딥러닝 기반 음악 전사와 인공 의미 증강을 위한 데이터 확장 전략

본 논문은 음악 전사, 즉 오디오 파일을 악보 형태의 MIDI 데이터로 변환하는 문제를 딥러닝 관점에서 재조명한다. 서론에서는 기존 상용 음원 검색 시스템(Shazam 등)의 성공 사례를 언급하며, 인간 수준의 전사 정확도에 아직 도달하지 못한 현 상황을 설명한다. 이어서 저자들은 단일 음표 인식에 대한 기존 연구를 간략히 정리하고, 본 연구의 목표를 “단일 음표 인식 결과 재현 및 폴리포니 인식에서의 유리천장 현상을 극복하기 위한 데이터·인공 의미 증강 방안 제시”로 명시한다. Ⅰ. 단일 음표 인식 오디오 신호를 먼저 DFT 기반 스펙트로그램으로 변환한다. 스펙트로그램은 시간 축(i)과 주파수 축(j)으로 구성된 2‑D 행렬이며, 이를 입력으로 하는 세 가지 신경망 구조를 설계한다. 모델 A는 2‑D CNN 형태로 스펙트로그램 전체를 한 번에 처리하고, 모델 B와 C는 스펙트로그램을 3‑D 텐서(시간, 주파수, 채널)로 재구성한 뒤 3‑D 컨볼루션을 적용한다. 각 모델은 128 차원의 출력 벡터를 생성해 MIDI 표준의 모든 음높이에 대한 존재 확률을 예측한다. 학습에는 95개의 MP3‑MIDI 쌍을 사용했으며, 손실 함수는 출력과 실제 MNPM(음표 확률 행렬) 사이의 교차 엔트로피로 정의한다. 실험 결과는 학습 곡선이 빠르게 수렴하지만, 테스트 정확도는 단일 음표에서는 비교적 양호하나, 다중 음표(폴리포니) 상황에서는 급격히 감소한다. 이는 기존 연구에서 보고된 “보지 못한 음 조합”에 대한 일반화 한계와 일치한다. Ⅱ. 데이터 및 인공 의미 증강 저자들은 데이터 증강을 두 축으로 구분한다. 첫 번째는 차원 확대이다. 1‑D 오디오 신호를 2‑D 스펙트로그램으로 변환함으로써 시간‑주파수 상관관계를 학습할 수 있게 하고, 스테레오·서라운드 등 다채널 녹음이 가능할 경우 3‑D 혹은 4‑D 데이터로 확장한다. 두 번째는 변환 기반 증강이다. 무손실 변환으로는 2‑D 스펙트로그램에 대해 90도 회전·좌우·상하 반사 등 8가지 대칭 변환을 적용하고, 3‑D 데이터라면 48가지 변환을 활용한다. 이러한 변환은 원본 데이터를 손실 없이 복제하면서 “역방향”, “대칭” 등 인공적인 의미를 부여한다. 또한, 랜덤 크롭(시간축을 임의로 잘라내는 방법)을 통해 다양한 길이의 입력을 생성한다. 손실 변환으로는 저강도 가우시안 노이즈 추가를 시도했으나, 스펙트로그램의 물리적 의미가 크게 변질될 위험이 있어 제한적으로만 적용한다. 증강된 데이터셋을 이용한 학습 결과는 모델이 더 빠르게 수렴하고, 과적합 위험이 감소한다는 점에서 긍정적이다. 그러나 정확도 향상 폭은 미미하며, 오차 범위 내에 머문다. 이는 증강이 데이터 양을 늘리긴 했지만, 본질적인 폴리포니 복합성(음간 상호작용, 하모닉스 등)을 해결하지 못했기 때문이다. Ⅲ. 논의 및 향후 과제 저자들은 현재 증강 기법이 “인공 의미”를 통해 학습 데이터의 효과적 크기를 늘릴 수 있음을 강조한다. 또한, 이러한 접근이 알파벳·기호 인식, 비언어적 커뮤니케이션 자동 인식 등 다른 도메인에도 적용 가능함을 제시한다. 향후 연구 방향으로는 (1) 다채널 고품질 녹음 데이터 확보, (2) 무손실 변환이 음악적 의미와 충돌하지 않는지 정량적 검증, (3) 최신 Transformer‑ 기반 시퀀스 모델이나 그래프 신경망을 도입해 음표 간 관계를 구조적으로 학습, (4) 손실 변환(예: 시간 스트레칭, 피치 변형)과 노이즈 주입을 최적화하여 폴리포니 일반화 능력을 향상시키는 것이 제시된다. 결론적으로, 본 논문은 데이터 증강과 인공 의미 부여라는 새로운 관점을 제시했지만, 실험적 검증이 부족하고, 최신 모델과의 비교가 없으며, 폴리포니 인식의 근본적인 어려움을 해결하기 위한 구조적 접근이 부족한 점이 한계로 남는다.

딥러닝 기반 음악 전사와 인공 의미 증강을 위한 데이터 확장 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기