해석 가능한 음악 태깅을 위한 복합 특징 자동 생성

본 논문은 음악 태깅 작업에서 성능을 높이면서도 모델의 해석 가능성을 유지하고자 하는 문제에 접근한다. 기존의 딥러닝 기반 특징 융합 방법은 높은 정확도를 제공하지만, 내부에서 어떤 특징이 어떻게 결합되는지 설명하기 어렵다. 반면 전통적인 수작업 특징은 해석 가능하지만 복잡한 상호작용을 포착하기엔 한계가 있다. 이를 해결하기 위해 저자들은 유전 프로그래밍(GP)을 이용한 자동 복합 특징 생성 파이프라인을 설계하였다. 파이프라인은 크게 세 단계로 구성된다. 첫 번째 단계에서는 두 종류의 기본 특징 집합을 추출한다. ‘E23’은 Essentia 라이브러리로부터 23개의 신호‑레벨 특징(볼륨, BPM, 온셋 레이트 등)을 얻고, ‘ALL62’는 E23에 더해 하모니 기능(Chord 변화율, Functional Harmony Ontology 기반 n‑gram), 그리고 멜‑MFCC 기반의 7개 인지 특징을 포함한다. 모든 특징은 z‑스코어 정규화한다. 두 번째 단계는 GP를 이용한 복합 특징 생성이다. 기본 특징을 터미널로, 사칙연산, 로그·제곱근·삼각·쌍곡선·시그모이드·ReLU·조건문 등 15여 개의 연산자를 함수 집합에 포함한다. 개체는 최대 깊이 6의 트리 형태이며, 초기 풀은 ramped half‑and‑half 방식으로 생성한다. 교배는 1‑포인트 서브트리 교차(0.8), 변이는 서브트리 교체(0.1)로 수행한다. 적합도는 XGBoost 분류기의 검증 ROC‑AUC(또는 정확도)를 직접 측정하고, 복합 특징의 표현식 크기(노드 수)에 비례하는 복잡도 페널티 λ=0.01을 차감한다. 이렇게 하면 간결하면서도 성능이 좋은 식이 선택된다. GP는 M번 반복해 각각 새로운 복합 특징을 하나씩 추가한다. 각 반복은 독립적인 GP 실행이며, 최종 특징 집합은 원본 특징에 M개의 진화된 복합 특징을 병합한 형태가 된다. 세 번째 단계에서는 XGBoost를 태깅 모델로 사용한다. MTG‑Jamendo 데이터셋(56개 멀티라벨, 18,486곡)에서는 다중 이진 분류를, GTZAN 데이터셋(10개 장르, 1,000곡)에서는 다중 클래스 분류를 수행한다. 평가 지표는 각각 ROC‑AUC와 정확도이며, 베이스라인은 동일한 하이퍼파라미터를 가진 XGBoost만을 사용한다. 실험 결과는 다음과 같다. ALL62 기반 베이스라인은 MTG‑Jamendo에서 0.727 ROC‑AUC, GTZAN에서 0.765 정확도를 기록한다. GP를 100번 평가(인구 100)한 경우 ALL62+GP100은 각각 0.729, 0.800으로 소폭 상승했으며, 인구 500(500번 평가)에서는 0.730, 0.805까지 개선된다. E23 기반에서도 유사한 상승이 관찰되어, 기본 특징의 수준에 관계없이 GP가 유의미한 조합을 찾아낸다. 특히 GTZAN에서는 4~5%p의 정확도 상승이 두드러진다. 성능 향상 곡선은 초기 200~300번 평가에서 급격히 상승하고 이후 완만히 수렴한다는 ‘초기 급상승‑플래토’ 패턴을 보이며, 이는 적은 검색 비용으로도 효과적인 특징을 찾을 수 있음을 의미한다. 대표적인 진화된 표현식을 살펴보면, “Loudness − BPM”, “max(0, cos(glob_sub)) − cos(max(0, Rhythm Stability)) + SpectralEnergybandLow” 등 선형·비선형·조건형 식이 혼합돼 있다. 조건문을 포함한 식은 장르별 혹은 감정별 특성이 구간적으로 다를 때 유용함을 시사한다. 또한 ‘Spectral‑Spread’와 ‘Spectral‑EnergybandLow’ 같은 스펙트럼 특징이 자주 함께 등장하고 높은 성능에 기여한다는 점은, 스펙트럼 분포가 음악 감정·장르 구분에 핵심적인 역할을 함을 재확인한다. 저자들은 이러한 식을 음악 이론 전문가에게 검증받아, 표현식이 실제 음악적 의미와 일치함을 확인했다. 전체적으로 이 논문은 (1) GP 기반 자동 특징 조합이 적은 연산 비용으로도 기존 해석 가능한 모델보다 높은 성능을 달성함, (2) 진화된 복합 특징이 인간이 이해 가능한 수식 형태로 제공돼 음악 이론과 직접 연결될 수 있음, (3) 파라메트릭 딥러닝 모델이 제공하지 못하는 ‘특징 상호작용에 대한 명시적 설명’을 제공한다는 점에서 MIR 분야에 중요한 기여를 한다. 향후 연구에서는 더 큰 특징 풀, 다중 목표 최적화(성능·복잡도·공정성), 그리고 실시간 시스템에의 적용 가능성을 탐색할 여지가 있다.

해석 가능한 음악 태깅을 위한 복합 특징 자동 생성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기