얼굴인식 정확도만으로는 공정성을 판단할 수 없다
본 논문은 법집행 현장에서 사용되는 얼굴인식 시스템의 전체 정확도(accuracy)가 인종·연령 등 인구통계학적 하위그룹 간 오류 차이를 가릴 수 있음을 지적한다. 하위그룹별 거짓양성(FPR)·거짓음성(FNR) 등을 분석한 결과, 동일한 전체 정확도를 보이는 시스템이라도 특정 그룹에 대해 오류율이 크게 차이날 수 있음을 실증한다. 따라서 정확도 중심 평가를 넘어서 하위그룹 성능, 불균형 지표, 모델‑agnostic 감사 방식을 포함한 포괄적 공…
저자: Khalid Adnan Alsayed
본 논문은 법집행 및 보안 분야에 점점 더 많이 도입되고 있는 얼굴인식 시스템(Facial Recognition Systems, FRS)의 평가 기준을 재검토한다. 서론에서는 딥러닝 기반 모델이 높은 전체 정확도(accuracy)를 달성함에도 불구하고, 인종·성별·연령 등 인구통계학적 하위그룹 간에 성능 격차가 존재한다는 기존 연구들을 인용한다. 이러한 격차는 ‘거짓양성(FPR)’과 ‘거짓음성(FNR)’이라는 오류 유형에서 특히 두드러지며, 법집행 상황에서는 각각 부당한 의심·조사와 중요한 용의자 누락이라는 심각한 운영 위험으로 이어진다.
2절에서는 정확도 기반 평가의 근본적인 한계를 논한다. 정확도는 전체 데이터에서 올바르게 분류된 비율만을 제공하므로, 하위그룹별 오류 분포를 전혀 드러내지 않는다. 저자는 가상의 90 % 정확도 사례를 들어, 두 하위그룹이 동일한 정확도를 보이지만 FPR과 FNR이 크게 차이나는 상황을 시각화(Figure 1)한다. 또한, 실제 실험 결과를 제시한다. 표 1은 전체 정확도 75.47 %와 함께 FPR 28.42 %, FNR 21.04 %를 보여주며, 표 2는 인종·연령별 FPR이 0.20~0.35, FNR이 0.13~0.31까지 변동함을 나타낸다. 이는 동일한 전체 정확도가 하위그룹 간 불공정성을 감추는 ‘마스크’ 역할을 할 수 있음을 입증한다.
3절에서는 이러한 격차가 실제 연구에서 어떻게 관측됐는지를 정리한다. 대표적인 연구
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기