음악 장르 인식을 위한 확장형 특징 엔지니어링 파이프라인

** 본 논문은 전통적인 추출‑분류 2단계 방식을 탈피하여, 정보이득 기반 특징 선택과 오토인코더 기반 비선형 압축을 결합한 다중 순환 파이프라인을 제안한다. GTZAN 데이터셋 실험 결과, 평균 정확도가 78 % → 86.3 % → 91 % 로 단계별 향상되었으며, 특히 자동인코더의 bottleneck 특징이 최종 성능에 4.7 %p 기여함을 확인하였다. **

저자: Tina Raissi (1), Aless, ro Tibo (2)

** 본 논문은 음악 장르 인식 시스템에서 특징 추출과 분류를 분리하는 전통적인 2단계 파이프라인의 한계를 지적하고, 이를 보완하기 위한 확장형 특징 엔지니어링 파이프라인을 제안한다. 핵심 아이디어는 “추출‑분류”라는 고정된 흐름을 깨고, 여러 단계 사이에 역방향 화살표와 순환 구조를 도입하여 중간 단계에서 얻은 정보를 다시 활용하는 것이다. 파이프라인은 크게 네 부분으로 구성된다. 첫 번째는 짧은 시간 프레임(50 ms, 50 % 오버랩)에서 14개의 물리·인식적 기본 특징을 추출하고, 파생 특징(예: 파생 평균·표준편차)까지 계산하는 단계이다. 두 번째는 1 s 텍스처 윈도우를 이용해 이들 특징을 평균·표준편차로 요약하는 early temporal integration(Mean‑Var) 과정이다. 여기서 얻어진 중간 피처 벡터는 바로 최종 분류에 사용되지 않는다. 대신 Random Forest 기반의 임시 분류기에 투입되어 각 특징의 정보이득(Information Gain)을 계산한다. 정보이득이 양수인 특징만을 선별함으로써, 차원 축소와 동시에 예측에 기여하는 핵심 서브셋을 자동으로 추출한다. 선별된 특징은 다시 오토인코더에 입력된다. 오토인코더는 입력 차원(190) → 60 → 20 → 60 → 출력(190) 구조를 가지며, PReLU 활성화와 0.2 드롭아웃을 적용한다. 중간 20차원의 bottleneck 레이어는 입력 특징들의 비선형 상관관계를 저차원에 압축한다. 이 레이어의 출력값은 원본 특징에 추가적으로 결합되어 최종 피처 벡터를 만든다. 최종 피처는

음악 장르 인식을 위한 확장형 특징 엔지니어링 파이프라인

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기