FCN 기반 에루 연주 기법 자동 인식

본 논문은 중국 전통 현악기 에루(Erhu)의 연주 기법을 탐지하기 위해 고정 길이 음향 이벤트 탐지에 강점이 있는 Fully Convolutional Network(FCN)를 활용한 엔드‑투‑엔드 프레임워크를 제안한다. 변수 길이 오디오에 대한 슬라이딩 윈도우와 평균화 기법을 도입해 10초 고정 모델을 확장했으며, 30여 종류의 기법을 포함한 새로운 데이터셋을 구축해 실험하였다. 4‑class 실험에서 최고 87.31% 정확도를 달성했으며, …

저자: Zehao Wang, Jingru Li, Xiaoou Chen

FCN 기반 에루 연주 기법 자동 인식
본 논문은 음악 정보 검색(MIR) 분야에서 연주 기법(Playing Technique) 탐지라는 비교적 미개척된 영역을 다루며, 특히 중국 전통 현악기인 에루(Erhu)를 대상으로 연구를 진행한다. 연구 동기는 기존의 멜로디 추출·피치 인식 기술이 개별 음표의 연주 기법을 포착하지 못한다는 점에 있다. 연주 기법은 같은 음높이라도 슬라이드, 트릴, 스타카토 등 다양한 표현을 가능하게 하며, 이를 정확히 인식하면 악보 자동 생성 및 교육용 응용에 큰 가치를 제공한다. 연구에서는 연주 기법 탐지를 사운드 이벤트 검출(Sound Event Detection, SED) 문제로 재정의하고, 이미지 의미론적 분할에 성공적으로 활용된 Fully Convolutional Network(FCN)를 기반 모델로 채택한다. FCN은 입력 전체에 대해 픽셀(여기서는 시간 프레임) 단위의 클래스 확률을 출력하므로, 연속적인 연주 흐름을 프레임별 라벨링하는 데 적합하다. 다만 FCN는 고정 길이 입력만 처리할 수 있다는 제약이 있어, 저자들은 10초 고정 윈도우와 2초 홉을 갖는 슬라이딩 윈도우 방식을 설계했다. 겹치는 구간에서 다중 예측이 발생하면, 해당 프레임의 확률 벡터들을 평균화(p_final)하여 최종 라벨을 결정한다. 이 방식은 간단하면서도 변수 길이 오디오에 대한 연속적인 탐지를 가능하게 한다. 데이터 구축은 두 단계로 이루어졌다. 첫 번째는 DCMI 데이터베이스에서 에루 전용 서브셋을 추출해 927개의 짧은 클립(0.2~2초, 30여 종류의 기법, 11개 카테고리)으로 구성하였다. 두 번째는 동일한 방식으로 326개의 변형 클립을 추가해 일반화 성능을 평가했다. 짧은 클립들을 무작위로 10초 길이의 세그먼트로 합성하고, 클립 간 50 ms 교차 페이드를 적용해 실제 연주와 유사한 연속성을 확보하였다. 라벨은 0.05 초 프레임 단위의 이벤트 태그로 제공되며, 단음성 악기 특성상 기법 간 중첩이 없다는 가정을 두었다. 또한, 고품질 MIDI 기반 스튜디오 음악 10곡과 현장 녹음 7곡을 별도 테스트셋으로 확보해 모델의 실제 적용 가능성을 검증하였다. 실험은 세 가지 클래스 구성을 통해 진행되었다. 4‑class 실험은 슬라이드, 스타카토, 트릴 + 기타(디태치 등)로 구성했으며, 2000개의 학습 세그먼트와 1000개의 테스트 세그먼트를 사용했다. 7‑class 실험은 각 기법의 세부 변형(예: 슬라이드 업/다운, 트릴 업 쇼트 등)을 포함해 4000/2000 비율로 학습·테스트를 수행했다. 11‑class 실험은 전체 기법을 모두 사용한 가장 포괄적인 설정이다. 결과는 4‑class에서 평균 정확도 87.31%를 기록했으며, 클래스 수가 증가함에 따라 정확도가 감소(7‑class 67.94%, 11‑class 48.26%)하는 경향을 보였다. 특히, 지속시간이 짧은 기법(0.15~0.20 초, 3~4프레임)에서는 모델이 충분히 특징을 포착하기 어려워 정확도가 낮아졌다. 후처리(post‑processing)를 적용하지 않아 순간적인 오탐이 누적될 가능성도 존재한다. 실제 음악에 대한 평가에서는 스튜디오 MIDI 트랙에서 40.90%~44.50% 수준, 현장 녹음에서는 12.39%~28.84% 수준의 정확도를 보였다. 이는 라벨링 오류, 활의 미세한 움직임, 연주자마다 다른 표현 방식 등 실제 환경에서 발생하는 변동성을 모델이 충분히 반영하지 못했음을 의미한다. 그러나 전반적으로 FCN 기반 접근법이 단일 악기의 연주 기법 탐지에 적용 가능함을 입증했으며, 데이터 요구량이 비교적 적고 다른 악기로의 전이 가능성이 높다는 장점을 강조한다. 논문의 한계로는 (1) 단음성 악기에만 적용 가능한 가정, (2) 고정 길이 모델에 의존하는 구조적 제약, (3) 짧은 기법에 대한 정확도 저하, (4) 라벨링 품질에 크게 좌우되는 점을 들 수 있다. 향후 연구 방향으로는 멀티스케일 컨볼루션, attention 메커니즘, Transformer 기반 시퀀스 모델 등을 도입해 시간적 의존성을 강화하고, 다중 라벨 프레임워크를 구축해 다중 악기·다중 기법을 동시에 처리할 수 있는 시스템을 제안한다. 최종 목표는 피치 추출과 연주 기법 탐지를 통합한 완전 자동 음악 전사(Automatic Music Transcription) 시스템을 구현하는 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기