다중 클래스 예측 성능 측정의 통합적 관점

본 논문은 최근 제안된 다중 클래스 성능 지표인 Confusion Entropy(CEN)와 전통적인 Matthews Correlation Coefficient(MCC)의 다중 클래스 일반화 사이에 강한 단조적 관계가 존재함을 실험과 이론을 통해 보여준다. 두 지표는 거의 선형적인 변환 관계에 있으며, CEN은 MCC가 0인 경우에도 세밀한 구분력을 제공한다는 점을 강조한다.

저자: Giuseppe Jurman, Cesare Furlanello

본 논문은 다중 클래스 분류기의 성능을 평가하기 위한 지표들 중, 최근 제안된 Confusion Entropy(CEN)와 전통적인 Matthews Correlation Coefficient(MCC)의 다중 클래스 일반화 사이에 존재하는 관계를 체계적으로 탐구한다. 서론에서는 정확도(ACC), AUC, MCC 등 기존 지표들의 한계와 다중 클래스 상황에서의 확장 필요성을 언급하고, 특히 MCC가 바이너리 분류에서 널리 쓰이지만 다중 클래스에서는 아직 충분히 연구되지 않았음을 지적한다. 이어서 정보 이론 기반의 엔트로피 개념을 차용한 CEN이 최근 제안되었으며, 기존 지표들보다 높은 구분력을 보인다고 주장한다. 이론적 배경에서는 먼저 샘플 집합 S와 클래스 집합 {1,…,N}을 정의하고, 진짜 라벨 tc와 예측 라벨 pc를 통해 혼동 행렬 C∈ℕ^{N×N}을 만든다. 정확도는 C의 대각합을 전체 합으로 나눈 값으로 정의된다. MCC는 다변량 공분산 형태로 표현되며, 식 (2)에서 제시된 복잡한 분모·분자 구조를 가진다. CEN은 각 클래스별 오분류 확률 P_{ij}를 이용해 식 (1)로 정의되며, 0에서 1 사이의 값을 가진다. 두 지표의 관계를 밝히기 위해 저자는 특수한 형태의 혼동 행렬을 분석한다. 예를 들어, 대각선에 T, 비대각선에 F인 행렬 B에 대해 MCC와 CEN을 각각 계산하고, 이를 통해 CEN ≈ (1/k)(1−MCC)·

다중 클래스 예측 성능 측정의 통합적 관점

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기