백프로파게이션 없이 연속 테스트 시 적응을 최적화하는 서브스페이스 방법
PACE는 정규화 레이어의 어파인 파라미터를 직접 최적화하는 백프로파게이션‑프리 연속 테스트‑타임 적응 시스템이다. 고차원 파라미터를 저차원 서브스페이스로 투사하고 CMA‑ES와 Fastfood 변환을 결합해 효율성을 높이며, 적응 중단 기준과 도메인 전용 벡터 뱅크를 도입해 연산량을 50 % 이상 절감한다.
저자: Damian Sójka, Sebastian Cygert, Marc Masana
본 논문은 테스트‑타임 적응(Test‑Time Adaptation, TTA) 분야에서 백프로파게이션을 사용하지 않으면서도 높은 적응 성능을 유지할 수 있는 새로운 프레임워크인 PACE(Projected Adaptation via Covariance Evolution)를 제안한다. 기존의 백프로파게이션‑기반 TTA는 강력한 성능을 보이지만, 메모리 사용량이 크고 양자화된 모델에 적용하기 어려워 제한이 있다. 반면 파생‑프리 접근법은 메모리와 연산량을 절감하지만, 주로 입력 프롬프트만을 업데이트하거나, 매 배치마다 다수의 순전파를 수행해 효율성이 떨어진다. 이러한 문제점을 해결하고자 저자들은 네 가지 핵심 구성 요소를 설계하였다.
1. **정규화 레이어 어파인 파라미터 직접 최적화**
기존 연구에서는 정규화 레이어의 스케일·바이어스 파라미터가 도메인 시프트에 민감하다는 점을 이용해 BP‑based TTA에서 주로 업데이트했다. 저자들은 이를 백프로파게이션 없이도 최적화할 수 있음을 입증한다. 실험적으로 입력 프롬프트를 튜닝하는 경우보다 정규화 어파인 파라미터를 직접 조정했을 때 정확도가 현저히 높아짐을 보여준다(그림 2).
2. **저차원 서브스페이스와 Fastfood 투사**
정규화 파라미터 전체 차원 D는 수만에 달한다. CMA‑ES와 같은 진화 전략을 직접 적용하면 샘플링 비용이 기하급수적으로 증가한다. 저자들은 TT‑A 그래디언트가 실제로는 낮은 내재 차원을 가진다는 사실을 실험(그림 3)으로 확인하고, 차원 d=2304인 저차원 벡터 v를 정의한다. 이 벡터를 Fastfood 변환을 이용해 고차원 파라미터 공간에 투사한다. Fastfood은 대각 행렬·퍼뮤테이션·정규분포 대각 행렬·Walsh‑Hadamard 변환을 조합해 메모리 사용량을 0.13 MB로 압축한다(대조적으로 밀집 투사 행렬은 306 MB 필요).
3. **CMA‑ES 기반 진화 최적화**
매 테스트 배치 t마다 K개의 후보 v(t)ₖ를 평균 m(t)와 공분산 Σ(t)를 갖는 다변량 가우시안에서 샘플링한다. 각 후보에 대해 어파인 파라미터를 적용한 모델을 평가하고, 손실 함수 L는 예측 엔트로피와 현재 배치와 소스 데이터의 통계 차이를 결합한다(식 4). 후보들의 순위에 따라 m과 Σ를 업데이트해 최적 파라미터에 점진적으로 수렴한다. 최종 예측은 가장 낮은 피트니스 값을 가진 후보를 사용한다.
4. **동적 적응 중단 기준**
실험적으로 적응은 도메인 전환 직후 초기 몇 배치에서 대부분의 정확도 향상을 제공한다(그림 4). 따라서 불필요한 연산을 방지하기 위해 평균 벡터 m의 상대 변화율이 사전 정의된 임계값 ε 이하가 되면 적응을 중단한다(식 6). 이 기준은 적응이 거의 수렴했을 때 자동으로 멈추게 하여, 도메인이 안정된 구간에서는 거의 제로에 가까운 연산량을 유지한다.
5. **도메인 전용 벡터 뱅크**
연속적인 TTA 환경에서는 동일한 도메인이 반복될 가능성이 있다. 저자들은 각 도메인에서 최적화된 저차원 벡터 v*를 저장하고, 해당 도메인이 재등장하면 저장된 벡터를 즉시 적용한다. 이렇게 하면 초기 적응 비용을 크게 줄이고, 반복 도메인에 대한 빠른 복구가 가능해진다.
**실험 결과**
- **벤치마크**: ImageNet‑C, CIFAR‑10‑C, CIFAR‑100‑C 등 다양한 시프트 데이터셋에서 평가.
- **성능**: 기존 BP‑free 방법(FoA, ZOA 등) 대비 평균 2~4 % 높은 정확도 달성. 특히 FoA가 프롬프트만 업데이트하는 경우와 비교해 정규화 어파인 파라미터 업데이트가 큰 차이를 만든다.
- **효율성**: 적응 중단 기준 적용 시 평균 실행 시간이 50 % 이상 감소하고, 메모리 사용량은 Fastfood 덕분에 300배 이상 절감.
- **비교**: BP‑based 최신 방법과도 경쟁 가능한 수준을 유지하면서, 양자화된 모델에서도 적용 가능함을 보인다.
**의의와 한계**
PACE는 백프로파게이션이 불가능하거나 비용이 높은 환경(예: 모바일/IoT 디바이스)에서 연속적인 테스트‑타임 적응을 실현한다는 점에서 큰 의미가 있다. 또한, 저차원 서브스페이스 탐색과 동적 중단 메커니즘을 결합함으로써 적응 효율성을 크게 향상시켰다. 다만, 현재는 정규화 레이어가 존재하는 아키텍처에 한정되며, 비정규화 기반 모델(예: 일부 CNN 변형)에는 직접 적용이 어려울 수 있다. 또한, ε 임계값 선택이 도메인 특성에 따라 민감하게 작용할 가능성이 있어 자동 튜닝 메커니즘이 추가될 여지가 있다.
**결론**
PACE는 정규화 어파인 파라미터를 저차원 서브스페이스로 투사하고 CMA‑ES와 Fastfood을 결합해 백프로파게이션 없이도 효율적이고 강력한 연속 테스트‑타임 적응을 구현한다. 동적 적응 중단과 도메인 전용 벡터 뱅크를 통해 연산량을 크게 절감하면서도 다양한 도메인 시프트에 대해 높은 정확도를 유지한다. 향후 연구에서는 비정규화 모델에 대한 확장, 자동 임계값 조정, 그리고 멀티‑모달 데이터에 대한 적용 가능성을 탐색할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기