대안적 그래디언트 흐름 기반 구조적 프루닝 및 동적 라우팅 통합 메트릭
본 논문은 기존 가중치·활성도 기반 프루닝 지표가 깊은 비전 네트워크의 구조적 프루닝에서 발생하는 ‘크기 편향’ 문제를 지적하고, 교대 그래디언트 흐름(AGF)에서 도출한 절대 피처‑스페이스 테일러 확장을 이용한 ‘동역학적 효용(Utility)’ 지표를 제안한다. AGF‑Utility는 극한 희소성에서도 토폴로지 전이와 암시적 정규화를 유지해 구조 붕괴를 방지하고, ViT에서는 신호 압축으로 인한 ‘희소성 병목’ 현상을 밝힌다. 최종적으로 오프…
저자: Tianhao Qian, Zhuoxuan Li, Jinde Cao
**1. 연구 배경 및 문제 정의**
딥러닝 모델의 연산 비용을 낮추기 위한 두 가지 주요 접근법은 (i) 채널 프루닝을 통한 영구적인 구조 축소와 (ii) 입력에 따라 계산 그래프를 동적으로 조정하는 라우팅이다. 기존의 정적 프루닝 지표는 가중치 절대값(ℓ1‑norm)이나 활성도 기반 메트릭(Wanda, RIA) 등 ‘크기가 작으면 중요도가 낮다’는 가정을 기반으로 한다. 이러한 가정은 비전 CNN에서 25% 이하의 너비를 남길 경우, 실제로는 중요한 기능적 경로를 담당하는 저크기 채널까지 제거해 무작위 프루닝보다도 성능이 떨어지는 ‘크기 편향’ 문제를 야기한다. 또한, Vision Transformer(ViT)와 같이 구조적 선입견이 약한 모델에서는 훈련이 수렴한 뒤 그래디언트 크기가 급격히 감소하면서 동적 라우팅 신호가 압축되는 ‘희소성 병목’ 현상이 발생한다. 기존의 SNIP, GraSP, SynFlow 등 그래디언트 기반 지표도 이 현상에 취약하다.
**2. Alternating Gradient Flow(AGF) 기반 효용 정의**
저자들은 Alternating Gradient Flow 이론을 차용해 학습 과정이 ‘saddle‑to‑saddle’ 전이와 같은 교대 흐름을 보인다고 가정한다. 이때 각 채널이 경험하는 총 변동(Total Variation, TV)은 경로 적분으로 정의되며, 이를 직접 계산하는 것은 비현실적이다. 따라서 연속 경로 적분을 이산화하고, 활성화와 그에 대한 그래디언트의 절대값 곱을 평균한 다음과 같이 근사한다.
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기