전이학습과 광학습시스템을 결합한 얼굴 미적 예측

본 논문은 ImageNet‑사전학습 EfficientNet을 특징 추출기로 사용하고, 추출된 특징을 광학습시스템(BLS)에 연결하여 얼굴 미적 점수를 예측하는 두 가지 모델(E‑BLS, ER‑BLS)을 제안한다. 전이학습으로 데이터 부족 문제를 완화하고, BLS의 빠른 학습 특성으로 모델 구축 시간을 단축한다. SCUT‑FBP5500 및 LSAFBD 데이터셋에서 기존 CNN·전이학습 기반 방법보다 높은 정확도와 효율성을 보이며, 제안 방법의 일…

저자: Junying Gan, Xiaoshan Xie, Yikui Zhai

전이학습과 광학습시스템을 결합한 얼굴 미적 예측
본 논문은 얼굴 미적 예측(Facial Beauty Prediction, FBP)이라는 복합적인 인지 과제를 다루면서, 기존 딥러닝 기반 접근법이 직면한 두 가지 핵심 문제—대규모 라벨링 데이터의 부족과 모델 학습에 필요한 높은 연산 비용—를 동시에 해결하고자 한다. 이를 위해 저자들은 전이학습(Transfer Learning)과 광학습시스템(Broad Learning System, BLS)을 결합한 새로운 프레임워크를 제안한다. 첫 번째 단계는 특징 추출기(feature extractor) 구축이다. EfficientNet 계열 모델을 백본으로 선택하고, ImageNet‑1k에서 사전학습된 가중치를 그대로 가져와 모든 컨볼루션 층을 고정(freeze)한다. EfficientNet은 깊이·폭·해상도 세 축을 균형 있게 스케일링하는 복합 스케일링 전략을 통해 파라미터 효율성을 극대화하면서도 높은 표현력을 유지한다. 이 단계에서 얼굴 이미지 X는 EfficientNet에 입력되어 Swish 활성화 함수를 거친 후, 마지막 컨볼루션 층의 출력 M을 얻는다. M은 고차원 특징 맵으로, 이후 BLS에 전달된다. BLS는 매핑 노드(mapping feature nodes), 강화 노드(enhancement feature nodes), 출력 레이어의 세 구성 요소로 이루어진 비깊이 신경망이다. 매핑 노드는 무작위 가중치와 편향을 사용해 입력 특징을 선형 변환하고, 강화 노드는 비선형 활성화 함수를 적용해 차원을 확장한다. 최종 출력은 매핑·강화 노드의 결합 행렬에 대한 의사역행렬(pseudo‑inverse) 연산을 통해 한 번에 계산된다. BLS의 장점은 추가적인 매핑·강화 노드를 동적으로 삽입할 수 있어 전체 재학습 없이도 모델 용량을 조절할 수 있다는 점이다. 논문에서는 이 기본 구조를 바탕으로 두 가지 변형 모델을 설계한다. 첫 번째 모델인 E‑BLS(EfficientNet‑BLS)는 EfficientNet에서 추출한 특징을 바로 BLS에 매핑한다. 학습 과정에서 목표 정확도가 만족되지 않을 경우, 매핑 노드와 강화 노드의 수를 증가시켜 정확도와 학습 속도 사이의 균형을 맞춘다. 두 번째 모델인 ER‑BLS(EfficientNet‑Connection‑BLS)는 E‑BLS에 연결층(connection layer)을 추가한다. 연결층에서는 전역 평균 풀링(Global Average Pooling)으로 공간 차원을 1차원으로 축소하고, 배치 정규화(Batch Normalization)와 정규화(regularization)를 적용해 특징 분포를 안정화한다. 이후 RBF(Radial Basis Function) 활성화를 통해 비선형성을 강화한다. 이러한 전처리 단계는 BLS가 무작위 가중치에 의존하는 특성상 발생할 수 있는 불안정성을 완화하고, 과적합 위험을 감소시킨다. 실험은 두 개의 공개 데이터셋, SCUT‑FBP5500(5,500장)과 LSAFBD(대규모 아시아 여성 얼굴)에서 수행되었다. 각 데이터셋은 1~5 점 사이의 미적 점수로 라벨링되어 있으며, 60명의 평가자가 점수를 부여했다. 평가 지표로는 평균 절대 오차(MAE)와 Pearson 상관계수를 사용하였다. 비교 대상에는 전통적인 전이학습 기반 CNN(VGG‑16, ResNet‑50, EfficientNet‑B0)과 기존 BLS 변형, 그리고 최근 제안된 멀티태스크 전이학습 모델이 포함되었다. 실험 결과, E‑BLS는 MAE 0.13, Pearson 0.84를 기록해 기존 CNN 대비 약 10%~15% 향상을 보였으며, 학습 시간은 CPU 환경에서도 30분 이내로 완료되어 GPU 기반 딥러닝 모델에 비해 10배 이상 빠른 속도를 나타냈다. ER‑BLS는 추가적인 연결층 덕분에 MAE 0.11, Pearson 0.86을 달성, 정확도 면에서 E‑BLS보다 약간 우수했지만 학습 시간은 약간 증가하였다(약 35분). 두 모델 모두 메모리 사용량이 기존 CNN 대비 40%~50% 절감되었다. 또한, 제안된 프레임워크는 데이터 양이 적은 상황에서도 안정적인 성능을 유지했으며, 새로운 데이터가 추가될 경우 BLS의 동적 노드 추가 메커니즘을 통해 전체 재학습 없이도 모델을 확장할 수 있음을 보였다. 이는 실시간 서비스나 임베디드 시스템에서 모델 업데이트 비용을 크게 낮출 수 있음을 의미한다. 논문의 주요 기여는 다음과 같다. (1) EfficientNet 기반 전이학습 특징 추출기를 활용해 데이터 부족 문제를 완화하고, 강건한 얼굴 표현을 확보하였다. (2) BLS와의 결합을 통해 학습 속도와 메모리 효율성을 크게 향상시켰으며, 동적 노드 추가를 통한 모델 확장성을 제공하였다. (3) 연결층을 도입한 ER‑BLS는 특징 정규화와 RBF 활성화를 통해 과적합을 억제하고 정확도를 추가로 개선하였다. (4) 제안된 방법이 얼굴 미적 예측뿐 아니라 패턴 인식, 객체 검출, 이미지 분류 등 다양한 비전 과제에 일반화 가능함을 실험적으로 입증하였다. 결론적으로, 전이학습과 BLS라는 서로 다른 학습 패러다임을 효과적으로 융합함으로써, 제한된 라벨 데이터와 연산 자원 환경에서도 높은 정확도와 빠른 학습 속도를 동시에 달성할 수 있는 실용적인 솔루션을 제시한다. 향후 연구에서는 더 다양한 백본 모델, 멀티태스크 학습, 그리고 강화 학습 기반의 동적 노드 최적화 전략을 결합해 모델의 다목적 활용성을 더욱 확대할 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기