비틀즈 작곡가 구분: 음악적 특징과 탄성회귀를 통한 저자 추정
본 연구는 1962‑1966년 사이에 발표된 비틀즈의 Lennon‑McCartney 곡 70여 곡(또는 구절)을 대상으로 멜로디·코드·음계 전이 등 5가지 음악적 특징을 이진 변수로 변환하고, 변수 스크리닝 후 탄성회귀(Elastic Net) 로지스틱 모델을 구축해 저자를 예측한다. 알려진 저작권 데이터를 학습에 사용했을 때 정확도 76 %, ROC AUC 0.837을 기록했으며, 이를 기반으로 논란이 있던 곡들의 저자를 추정한다.
저자: Mark E. Glickman, Jason I. Brown, Ryan B. Song
본 논문은 비틀즈의 대표 작곡가인 John Lennon과 Paul McCartney가 공동 저작권(Lennon‑McCartney)으로 발표한 곡들 중, 실제로 어느 한 사람이 주도했는지에 대한 논쟁을 음악적 특징을 이용해 통계적으로 해결하고자 한다. 연구자는 1962년부터 1966년까지 발표된 영국 정규 앨범과 싱글에서 총 78개의 곡(또는 구절)을 선정했으며, 이 중 70개는 저자가 명확히 확인된 데이터(Compton, 1988)이고, 나머지 8개는 저자에 대한 의견이 상충되는 논란 곡이다.
데이터 수집 단계에서는 기존의 악보와 Isophonics 온라인 코드 데이터베이스를 활용해 각 곡의 멜로디와 하모니 정보를 디지털화했다. 멜로디는 음표의 피치만을 고려해 옥타브를 무시하고 12개의 피치 클래스로 구분했으며, 코드는 다이아토닉 7개와 비다이아토닉을 각각 하나의 카테고리로 합쳐 총 9개의 코드 유형을 만든다. 이후 2‑gram 형태의 코드 전이와 음표 전이를 각각 24개와 다수의 전이 카테고리로 정의했으며, 4음 멜로디 컨투어(곡선) 정보를 추가적인 로컬 특징으로 포함시켰다. 모든 특징은 해당 곡에 존재하면 1, 없으면 0으로 이진화했으며, 반복 구절에 대한 과도한 가중을 방지하기 위해 빈도 대신 존재 여부만을 사용했다.
특징 차원이 매우 높고 표본이 적은 상황을 고려해, 먼저 Fan과 Lv(2008)의 Sure Independence Screening을 적용해 저자와의 일변량 상관이 높은 변수들을 선별했다. 그 후 선택된 변수들을 입력으로 Elastic Net 정규화를 적용한 로지스틱 회귀 모델을 구축했다. Elastic Net은 L1(라쏘)과 L2(릿지) 페널티를 혼합해 변수 선택과 다중공선성 억제를 동시에 수행한다. 모델의 하이퍼파라미터(α, λ)는 5‑fold 교차 검증을 통해 최적화했으며, 최종 모델은 약 30개의 변수로 구성되었다.
모델 성능 평가는 알려진 저자 데이터에 대해 수행했으며, 정확도 76 %와 ROC 곡선 아래 면적(AUC) 0.837을 기록했다. 이는 기존 텍스트 기반 저자 구분 모델과 비슷한 수준이며, 음악적 특징만으로도 저자 구분이 가능함을 시사한다. 그러나 클래스 불균형(예: Lennon과 McCartney 곡 비율)과 표본 크기의 제한으로 인해 정밀도·재현율 등 세부 지표가 추가로 보고되지 않았다. 또한, 변수 중요도 분석이 부재해 어떤 음악적 요소가 저자 구분에 가장 크게 기여했는지 명확히 알기 어렵다.
논란이 있는 8곡에 대한 예측 결과는 논문 본문에 상세히 제시되지 않았으며, 모델 적용 시 확률값이나 불확실성(예: 신뢰 구간)도 제공되지 않았다. 따라서 실제 음악학적 해석이나 비틀즈 연구자들에게 실질적인 결론을 제시하기엔 한계가 있다.
연구의 강점은 음악 데이터를 텍스트와 유사한 이진 특징 벡터로 변환해 현대 통계학적 방법을 적용한 점이며, 특히 변수 스크리닝과 Elastic Net을 결합한 파이프라인은 고차원·소표본 문제에 적합한 접근법이다. 반면, 데이터 전처리 과정에서 옥타브와 리듬 정보를 무시한 점, 반복 구절을 단순히 존재 여부로만 처리한 점은 음악적 풍부함을 충분히 반영하지 못한다는 비판을 받을 수 있다. 또한, 모델 검증이 내부 교차 검증에만 의존하고 외부 독립 검증 세트가 없으며, 논란 곡에 대한 실제 적용 결과가 부족해 실용성을 평가하기 어렵다.
결론적으로, 이 연구는 비틀즈 곡의 저자 구분에 대한 최초의 정량적 시도를 제공하고, 음악적 특징이 저자 식별에 일정 수준 기여함을 보여준다. 향후 연구에서는 더 큰 데이터베이스 구축, 리듬·다이내믹스·가사 등 다차원적 특징 통합, 베이지안 모델링이나 딥러닝 기반 시퀀스 모델 적용, 그리고 변수 중요도 해석을 통한 음악학적 인사이트 도출이 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기