극소형 파라미터 얼굴 검출기 EXTD: 반복 필터 재사용 기반 멀티스케일 탐지

본 논문은 0.1 백만 이하의 파라미터만을 사용하면서도 WIDER FACE 데이터셋에서 최신 대형 모델에 필적하는 정확도를 달성한 초소형 얼굴 검출기 EXTD를 제안한다. 핵심 아이디어는 얕고 경량인 백본 네트워크를 반복적으로 재사용해 여러 스케일의 특징 맵을 생성하는 ‘Iterative Filter Reuse’ 방식이며, 이를 SSD와 FPN 두 가지 검출 파이프라인에 적용하였다. 인버티드 레지듀얼 블록과 깊이별 컨볼루션을 활용해 파라미터와 …

저자: YoungJoon Yoo, Dongyoon Han, Sangdoo Yun

극소형 파라미터 얼굴 검출기 EXTD: 반복 필터 재사용 기반 멀티스케일 탐지
본 논문은 파라미터 수가 0.1 백만 이하인 초소형 얼굴 검출기 EXTD(Extremely Tiny Face Detector)를 제안한다. 기존 멀티스케일 얼굴 검출기들은 VGG‑16, ResNet‑50 등 대형 백본을 사용해 서로 다른 레이어에서 바로 특징 맵을 추출한다. 이러한 접근은 높은 정확도를 제공하지만 파라미터와 FLOPs가 크게 늘어나 모바일·임베디드 환경에 부적합하다. 저자들은 이러한 문제를 해결하기 위해 “Iterative Filter Reuse”라는 새로운 설계 패턴을 도입한다. 핵심 아이디어는 얕고 경량인 백본 네트워크(인버티드 레지듀얼 블록 기반)를 하나만 두고, 이를 여러 번 순차적으로 적용해 서로 다른 해상도의 특징 맵을 생성하는 것이다. 구체적인 흐름은 다음과 같다. 입력 이미지 x를 640×640으로 리사이즈한 뒤, 첫 번째 스트라이드‑2 컨볼루션 E(·)을 통과시켜 초기 특징 맵 f₀을 만든다. 이후 동일한 백본 F(·)를 N = 6번 반복 적용해 f₁, f₂, …, f₆을 얻으며, 각 단계마다 해상도가 절반씩 감소한다. 결과적으로 160×160, 80×80, 40×40, 20×20, 10×10, 5×5 의 6가지 스케일을 제공한다. 두 가지 검출 파이프라인에 적용 가능하도록 설계되었다. 첫 번째는 SSD‑like 구조로, 각 fᵢ에 바로 3×3 컨볼루션 하나로 구성된 분류 헤드와 회귀 헤드를 연결한다. 두 번째는 FPN‑like 구조로, 각 fᵢ를 bilinear upsample 후 depth‑wise + point‑wise 컨볼루션으로 구성된 업샘플 블록을 거쳐 gᵢ를 만든다. gᵢ는 gᵢ₊₁을 upsample한 결과와 f_{N‑i}를 스킵 연결한 형태이며, 최종적으로 고해상도 특징에 저해상도 단계의 의미 정보를 주입한다. 이 과정에서 별도의 lateral 연결이나 추가 파라미터가 필요하지 않다. 백본은 MobileNet‑V2에서 영감을 얻은 인버티드 레지듀얼 블록을 사용한다. 각 블록은 point‑wise Conv(채널 확장) → depth‑wise Conv → point‑wise Conv(채널 축소) 로 구성되며, 입력·출력 채널이 동일하고 stride = 1인 경우에만 residual 연결을 적용한다. 활성화 함수는 PReLU(또는 Leaky‑ReLU)를 사용해 학습 안정성을 높였으며, 이는 반복적인 백본 재사용 시 발생할 수 있는 그래디언트 소실을 완화한다. 전체 네트워크 파라미터는 0.1 M 이하, 즉 약 400 KB 수준으로 제한된다. 분류와 회귀 헤드는 각각 3×3 Conv 하나로 구현된다. 분류 헤드 Cᵢ는 일반적인 2채널 출력(배경/얼굴)을 사용하지만, 첫 번째 레이어 C₁은 4채널을 만든 뒤 Maxout을 적용해 가장 신뢰도가 높은 두 채널만 선택한다. 이는 작은 얼굴에 대한 오탐을 감소시키는 S3FD의 전략을 차용한 것이다. 회귀 헤드 Rᵢ는 4채널(좌표와 크기) 출력을 제공한다. 학습은 RPN 스타일의 다중 과제 손실 함수 l = λ · l_cls + l_reg 로 최적화한다. l_cls는 cross‑entropy, l_reg는 smooth‑L1 손실이며, λ = 4 로 설정해 두 손실의 스케일을 맞춘다. 클래스 불균형을 해결하기 위해 온라인 하드 네거티브 마이닝을 적용해 positive : negative 비율을 1 : 3 으로 유지한다. 또한 스케일 보상 앵커 매칭을 도입해 작은 얼굴에 대한 정답 앵커가 충분히 확보되도록 한다. 데이터 증강은 색상 왜곡, 랜덤 크롭, 좌우·상하 플립을 포함한 S3FD와 동일한 파이프라인을 따른다. 실험은 WIDER FACE 데이터셋의 Easy, Medium, Hard 서브셋에서 수행되었다. EXTD‑SSD와 EXTD‑FPN 모두 S3FD(모바일 백본 사용)와 거의 동일한 평균 정밀도(mAP)를 기록했으며, 파라미터는 0.1 M 이하, FLOPs는 1 G 이하로 크게 감소했다. 특히 Hard 서브셋(작은 얼굴 비중이 높은)에서는 FPN‑like 구조가 SSD‑like 구조보다 약 1~2 % 높은 AP를 보였는데, 이는 반복적인 백본 사용이 저해상도 단계에 고수준 의미 정보를 전달함으로써 작은 객체 검출 능력이 강화된 결과로 해석된다. 결론적으로, EXTD는 “백본 재사용 → 파라미터 절감 → 의미 전달 강화”라는 설계 원칙을 통해 초소형 모델에서도 최신 대형 모델에 필적하는 성능을 달성했다. 이는 모바일·임베디드 환경에서 실시간 얼굴 검출이 요구되는 다양한 응용(스마트폰 인증, AR/VR, 로봇 비전 등)에 직접 적용 가능함을 시사한다. 향후 연구에서는 더 깊은 재사용 단계, 다른 경량 백본(예: ShuffleNet)과의 결합, 그리고 비얼굴 객체 검출로의 일반화 가능성을 탐색할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기