무작위 가중치와 하이퍼파라미터 최적화만으로도 얼굴표정 분류를 65% 이상 달성한다

본 논문은 2013년 ICML 워크숍에서 제시된 “Null 모델”을 기반으로, 얼굴표정 인식 과제에 대한 자동화된 하이퍼파라미터 최적화와 앙상블 구축 방법을 제안한다. Null 모델은 전통적인 이미지 처리 파이프라인을 그대로 유지하면서, 학습 가능한 가중치를 전혀 사용하지 않는다. 구체적으로, 무작위 가우시안 필터 혹은 훈련 데이터의 PCA 성분을 이용한 랜덤 프로젝션을 적용한 컨볼루션 레이어(1~3층)를 구성하고, 어피인 변형, 로컬 풀링, 디히스토그램 풀링, L2 정규화 등을 차례로 수행한다. 최종 특징 벡터는 선형 SVM에 입력되어 클래스 라벨을 예측한다. 핵심 기여는 두 가지이다. 첫째, 238개의 조건부 하이퍼파라미터를 포함하는 방대한 탐색 공간을 정의하고, 이를 Tree‑structured Parzen Estimator(TPE) 기반의 베이지안 최적화 알고리즘인 Hyperopt을 이용해 자동으로 탐색한다. TPE는 이전 실험 결과를 확률 모델로 추정해, 유망한 하이퍼파라미터 조합을 효율적으로 샘플링한다. 논문에서는 각 실험이 10~25분 정도 소요되며, 한 라운드에 1,000개의 비퇴화 후보를 평가한다. 이를 통해 검증 셋에서 약 60% 정확도를 달성한 최적의 Null 모델 구성을 찾는다. 둘째, SVM HyperBoost라는 새로운 부스팅 알고리즘을 도입한다. 전통적인 부스팅은 약한 학습기를 순차적으로 추가하며 가중치를 조정한다. 여기서는 각 학습기가 이미 고차원 특징을 가진 강한 학습기이므로, HyperBoost는 “특징 집합” 자체를 새로운 학습기로 간주한다. 첫 라운드에서는 표준 SVM을 학습하고, 이후 라운드에서는 기존 라운드에서 고정된 가중치를 스케일링(α)하고, 새롭게 탐색된 특징 집합에 대한 가중치를 다시 최적화한다. 이렇게 하면 힌지 손실 기반 SVM이 과적합을 방지하면서도 점진적으로 성능을 향상시킬 수 있다. 실험은 Kaggle에서 제공한 48×48 픽셀 그레이스케일 얼굴 이미지 데이터셋(훈련 28,709개, 테스트 7,178개)을 사용한다. 훈련 데이터를 20,709개와 검증 데이터를 8,000개로 나누어 하이퍼파라미터 최적화를 수행했으며, 테스트 단계에서는 Kaggle에 예측 결과를 제출해 정확도를 측정했다. 단일 Null 모델은 테스트 정확도 60.0%를 기록했으며, HyperBoost를 4라운드 적용한 앙상블은 65.5% 정확도로 56팀 중 5위에 올랐다. 개별 라운드에서 선택된 특징 집합은 모두 9,000개에 근접했으며, 훈련 정확도는 85%~97%에 달했지만 검증·테스트 정확도는 현저히 낮아 과적합이 존재함을 보여준다. 이는 강한 학습기들을 효과적으로 조합하기 위해 SVM 정규화 파라미터(C)와 스케일 파라미터(α)를 매 라운드마다 재조정한 덕분이다. 논문의 의의는 복잡한 딥러닝 구조 없이도, 충분히 넓은 하이퍼파라미터 공간과 자동화된 탐색·앙상블 기법만으로도 경쟁적인 성능을 달성할 수 있음을 실증한 점이다. 또한, 사전에 설계된 Null 모델 공간이 새로운 데이터셋에 그대로 적용 가능함을 보여, AutoML의 실용성과 모델 재사용성을 강조한다. 한계점으로는 무작위 필터와 PCA에만 의존한다는 점, GPU 메모리와 탐색 시간에 대한 높은 비용, 그리고 현재 모델에 dropout, maxout, sparse coding 등 최신 정규화·학습 기법이 포함되지 않은 점을 들 수 있다. 향후 연구에서는 이러한 기법들을 포함한 확장된 모델 공간을 탐색함으로써, 현재보다 더 높은 일반화 성능을 기대할 수 있다.

무작위 가중치와 하이퍼파라미터 최적화만으로도 얼굴표정 분류를 65% 이상 달성한다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기