멜로디 스타일 기반 타안 구간 자동 분할: 손수 만든 특징과 CNN 비교

이 논문은 인도 고전 가창인 힌두스탄 카얄 콘서트에서 빠르고 규칙적인 피치·에너지 변조가 특징인 ‘타안’ 구간을 자동으로 라벨링하는 방법을 제안한다. 음성 전처리와 피치·에너지 변조를 포착하는 3차원 손수 만든 특징을 1 초 프레임 단위로 MLP에 입력해 프레임 분류를 수행하고, 후처리로 자기거리 행렬 기반 새로움 검출을 이용해 구간을 결합한다. 또한 동일 데이터에 대해 스펙트로그램 패치를 입력으로 하는 CNN‑MLP 하이브리드 모델을 실험하여…

저자: Amruta Vidwans, Nachiket Deo, Preeti Rao

멜로디 스타일 기반 타안 구간 자동 분할: 손수 만든 특징과 CNN 비교
본 논문은 인도 고전 음악인 힌두스탄 카얄 보컬 콘서트에서 ‘타안’이라 불리는 빠른 멜로디 구간을 자동으로 식별·분할하는 두 가지 접근법을 제시한다. 타안은 가수의 목소리가 5–10 Hz 정도의 규칙적인 피치 변조와 동시 발생하는 에너지 변동을 보이며, 이는 음악학적으로 클라이맥스 역할을 하는 중요한 구조적 마크이다. 이러한 특성을 반영해 저자는 먼저 음성 구간을 검출하고, 우세 피치(F0)와 조화 에너지를 10 ms 해상도로 추출한다. 피치는 55 Hz 기준으로 센트 변환 후, 1 s 프레임 내에서 3차 다항식으로 느린 멜로디 트렌드를 제거하고, 128‑점 DFT를 적용해 변조 주파수와 피크 높이를 얻는다. 에너지 변동은 같은 프레임에서 제로‑크로싱 레이트와 피크 주변 1.6 Hz 대역의 파워 스펙트럼을 이용해 정규화한다. 이렇게 만든 3차원 특징(피치 변조 주파수, 피크 강도, 에너지 제로‑크로싱)은 1 s 간격으로 평균화·표준화되어 MLP(은닉 300 유닛, 시그모이드) 입력이 된다. MLP는 교차 엔트로피 손실을 최소화하며 프레임‑레벨 ‘타안/비타안’ 확률을 출력한다. 이후에는 자기거리 행렬(SDM)을 이용해 새로움 함수를 계산하고, 체커보드 커널을 대각선에 컨볼루션해 구간 경계 후보를 탐지한다. 경계 사이 구간이 다수 프레임을 ‘타안’으로 분류하면 해당 구간을 타안으로 라벨링한다. 마지막으로, 20 s 이하의 비타안 보컬 구간이나 50 s 이하의 순주악 구간이 존재하면 인접 타안 구간을 하나로 병합하는 휴리스틱을 적용해 음악가가 라벨링하는 방식과 일치하도록 한다. 두 번째 접근법은 동일 데이터에 대해 스펙트로그램 패치를 직접 입력으로 하는 CNN‑MLP 하이브리드 모델을 설계한다. 8 kHz 샘플링, 40 ms 윈도우, 20 ms 홉으로 만든 로그 스펙트로그램 중 0–1.5 kHz(94 빈) 구간을 1 s(50프레임) 크기로 슬라이스해 94×50 입력을 만든다. 네트워크는 7×7, 3×3 필터를 각각 10개씩 사용하고, 평균 풀링(2×2)과 300‑유닛 시그모이드 은닉층, 2‑클래스 소프트맥스 출력으로 구성된다. 학습은 초기 풀링‑소프트맥스 단계와 이후 MLP 결합 단계로 900 epoch, 학습률 0.1→0.05→0.025 순으로 진행한다. 실험은 57개의 카얄 콘서트(22곡은 테스트, 35곡은 훈련)로 수행되었다. 테스트 세트는 아티스트‑특정 교차 검증과 아티스트‑독립 훈련 두 조건으로 나뉘었다. 손수 만든 특징‑MLP 조합은 프레임 정확도·정밀도·재현율 모두 80 % 이상을 달성했으며, 특히 아티스트‑독립 훈련에서도 높은 일반화를 보였다. CNN‑MLP는 약 70 % 수준으로 손수 만든 특징에 비해 낮았지만, 무작위 추정보다 현저히 높은 결과를 보여 특징 학습 가능성을 입증했다. 오류 분석에서는 다중 악기와 잡음이 많은 구간에서 피치 검출 오류가 발생해 변조 특징이 약화되는 것이 주요 원인으로 지적된다. 결론적으로, 도메인 지식에 기반한 특수 특징이 제한된 데이터 환경에서 여전히 강력함을 보여주며, CNN은 더 큰 데이터와 심층 구조가 필요함을 시사한다. 또한, 프레임‑레벨 분류와 SDM 기반 새로움 검출을 결합한 후처리 파이프라인이 음악가 수준의 구간 라벨링을 효과적으로 모방한다는 점에서 구조적 음악 분석에 유용한 프레임워크를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기