AI 모델 하나로 다중 행동 구현: 로짓 재분배 기반 모듈레이션

본 논문은 대규모 사전학습 모델을 재학습 없이 하나의 모델만으로 다양한 품질·특징 요구를 만족시키는 “모델 모듈레이션” 방식을 제안한다. 핵심은 로짓을 재분배하는 제어 함수 Λ를 적용해 유틸리티(출력 품질)와 포커스(특정 입력 특징 강조) 두 가지 모드로 모델 행동을 조정하는 것이다. 통계적 로그 순서 분석을 통해 조절 가능성을 이론적으로 보증하고, ResNet, SegFormer, Llama 등 여러 아키텍처와 이미지 분류·세그멘테이션·텍스트…

저자: Zihan Wang, Zhongkui Ma, Xinguo Feng

AI 모델 하나로 다중 행동 구현: 로짓 재분배 기반 모듈레이션
본 논문은 대규모 사전학습 모델을 여러 버전으로 유지·관리하는 비용과 복잡성을 해소하고자, 하나의 모델만으로 다양한 품질·특징 요구를 만족시키는 “모델 모듈레이션”이라는 새로운 패러다임을 제시한다. 모델 소유자는 유틸리티 모듈레이션을 통해 서비스 티어별로 출력 품질을 동적으로 조절할 수 있고, 최종 사용자는 포커스 모듈레이션을 이용해 특정 입력 특징(예: 자동차 vs 보행자, 특정 토픽 등)에 모델의 민감도를 높일 수 있다. 핵심 기술은 로짓 재분배이다. 모델 f*의 최종 로짓 z에 대해 제어 함수 Λ(ε)를 적용해 새로운 로짓 z′=Λ(z,ε)로 변환한다. Λ는 사전 정의된 확률분포(가우시안, 라플라스 등)에서 샘플링한 노이즈를 로그 순서를 보존하도록 스케일링한다. 이 과정은 모델 파라미터를 전혀 변경하지 않으며, 학습 데이터에 대한 의존성도 없다. 이론적 분석에서는 로그 순서 보존 확률을 joint probability distribution을 통해 정량화한다. ε가 증가하면 로그 순서 보존 확률이 감소하지만, 특정 범위 내에서는 순서가 유지될 확률이 충분히 높아 유틸리티 감소가 점진적으로 일어나고, 포커스 강화가 목표 클래스·특징에 대한 로그 차이를 확대한다는 것을 증명한다. 이를 통해 유틸리티 모듈레이션에서는 성능 지표 M이 ε에 대해 단조 감소하고, 포커스 모듈레이션에서는 전체 성능 M은 작은 Δ 이내로 유지되면서 강조하고자 하는 메트릭 E가 증가한다는 수학적 보장을 제공한다. 실험은 세 가지 도메인과 세 가지 모델 아키텍처에 걸쳐 수행되었다. 이미지 분류에서는 ResNet‑56에 대해 ε를 0~1로 변화시켜 Top‑1 정확도가 부드럽게 감소함을 확인했으며, 저품질 티어에 적합한 모델을 즉시 생성할 수 있었다. 세그멘테이션에서는 SegFormer‑B2에 포커스 모듈레이션을 적용해 보행자 클래스 IoU를 12%p 향상시키면서 차량·배경 클래스 성능 저하는 2%p 이하로 제한했다. 텍스트 생성에서는 Llama‑3.1‑8B에 로그 스케일링을 적용해 출력 길이와 복잡도를 조절했으며, 인간 평가에서 저유틸리티 설정에서도 일관된 문맥 흐름을 유지함을 입증했다. 시스템 측면에서 AIM은 추론 단계에 로짓 변환만 추가되므로 연산 오버헤드가 약 3%에 불과하고, 메모리 사용량도 미미하게 증가한다. 따라서 클라우드 기반 MLaaS에서 다중 서비스 티어를 제공하거나, 엣지 디바이스에서 전력·성능 트레이드오프를 동적으로 조절하는 데 적합하다. 한계점으로는 로짓 재분배가 내부 특징 표현을 직접 수정하지 않기 때문에, 완전한 도메인 전이(예: 새로운 의료 영상 병변)에는 여전히 파인튜닝이 필요할 수 있다. 또한, 제어 함수의 파라미터 ε와 노이즈 분포의 선택이 도메인 별 경험적 튜닝을 요구한다는 점에서 자동 파라미터 탐색 기법과의 결합이 향후 연구 과제로 남는다. 결론적으로, AIM은 로짓 수준에서 확률적 재분배를 이용해 모델의 유틸리티와 포커스를 정량적으로 조절할 수 있는 이론적·실험적 기반을 제공한다. 재학습 비용을 회피하면서도 서비스 차별화와 사용자 맞춤형 AI 제공을 가능하게 하는 실용적인 프레임워크로, 향후 다양한 AI 서비스와 온‑디바이스 적용에 큰 잠재력을 가진다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기