확률적 맥스아웃으로 딥러닝 성능 향상
본 논문은 기존의 맥스아웃(Maxout) 유닛을 확률적으로 일반화한 Probout 유닛을 제안한다. Boltzmann 분포 기반의 샘플링을 통해 서브스페이스 내 k개의 선형 변환 중 하나를 선택함으로써, 낮은 층에서는 다양한 변환을 학습하고 높은 층에서는 기존 맥스아웃과 동일한 동작을 유지한다. CIFAR‑10, CIFAR‑100, SVHN에서 기존 맥스아웃을 능가하거나 동등한 정확도를 달성했으며, 특히 초기 층에서 필터가 변환 관계를 갖는 모…
저자: Jost Tobias Springenberg, Martin Riedmiller
1. 서론
딥러닝에서 과적합을 방지하기 위한 확률적 모델 평균화 기법으로 드롭아웃이 널리 사용된다. 드롭아웃은 각 유닛을 50% 확률로 비활성화함으로써 수많은 서브모델을 학습하고, 테스트 시에는 가중치를 절반으로 스케일링해 평균화한다. 이러한 맥락에서 맥스아웃(Maxout) 유닛은 다수의 선형 변환을 풀링해 비선형성을 제공하고, 드롭아웃과의 호환성이 뛰어나 좋은 성능을 보였다. 그러나 맥스아웃은 “최대값 선택”이라는 결정적 연산 때문에 서브스페이스 내 다른 변환들이 학습에 거의 기여하지 못한다는 단점이 있다.
2. 관련 연구
드롭아웃, 드롭커넥트, 적응형 드롭아웃, 스토캐스틱 풀링 등 다양한 확률적 정규화 기법이 제안되었다. 또한 Lp‑풀링, L2‑풀링 등 서브스페이스 풀링을 일반화하려는 시도도 있었지만, 비선형성 손실, 포화 현상, 양수 제한 등으로 인해 맥스아웃의 장점을 완전히 대체하지 못했다.
3. 모델 정의
3.1 Probout 유닛
입력 v에 대해 k개의 선형 변환 z_i = w_i·v + b_i (i=1…k)를 계산한다. 각 변환에 대해 Boltzmann 확률 p_i = exp(λ·z_i)/∑_j exp(λ·z_j) 를 정의하고, 다항분포에서 i를 샘플링한다. 선택된 z_i가 유닛의 출력 h_probout(v) 가 된다. λ는 역온도 파라미터로, λ→∞이면 기존 맥스아웃과 동일하고 λ가 작을수록 샘플링이 균등해진다.
3.2 드롭아웃과의 결합
드롭아웃을 직접 확률에 포함시켜 p₀=0.5(비활성화)로 두고, 나머지 확률을 0.5·p_i 로 스케일링한다. 이렇게 하면 학습 시 각 변환이 선택될 확률이 λ와 드롭아웃에 의해 동시에 조절된다.
3.3 추론 단계
테스트 시에는 드롭아웃을 제거하고 모든 가중치를 0.5로 스케일링한다. Probout의 샘플링은 확률을 1/k 로 균등하게 만든 뒤, 실제로는 평균화된 deterministic 출력을 사용한다. 전체 가능한 모델 수가 (k+1)^M (M은 Probout 유닛 수) 로 급증하지만, 실험에서는 몇 개의 샘플을 평균하는 방식으로 충분히 근사하였다.
4. 실험
4.1 CIFAR‑10
5계층 컨볼루션 네트워크(48‑128‑128 Conv, 각 2‑풀링, 마지막 Fully‑Connected 240 유닛, 서브스페이스 차원 5)에서 λ를 층별로 교차 검증하였다. 저층에서는 λ₁=1, λ₂=2 (높은 변동성)로 설정하고, 고층에서는 λ₃=3, λ₄=4 (거의 최대값 선택)로 설정했다. 이 구성에서 검증 오류 6.2% → 5.1% 로 개선되었으며, 최종 테스트 오류는 3.86% (맥스아웃 4.04%)를 기록했다.
4.2 필터 시각화
첫 번째 층의 선형 필터 쌍을 시각화한 결과, Probout이 학습한 필터는 서로 회전·반전·색상 변환 관계에 있었으며, 맥스아웃 필터는 독립적인 패턴을 보였다. 이는 Probout이 서브스페이스 내 변환을 학습하도록 유도함을 의미한다.
4.3 CIFAR‑100 및 SVHN
동일한 네트워크 구조와 λ 설정을 적용했을 때, CIFAR‑100에서는 20.5% 오류(기존 21.2%), SVHN에서는 1.86% 오류(기존 1.92%)를 달성했다. 이는 다양한 데이터셋에서 일관된 성능 향상을 보여준다.
4.4 추가 실험
- 마지막 두 층을 맥스아웃으로 교체해도 성능 저하가 거의 없었으며, 이는 고층에서 높은 λ(거의 결정적 선택)이 더 유리함을 시사한다.
- 모델 평균화 효과를 검증하기 위해 10개의 샘플을 평균했을 때와 단일 deterministic 출력을 사용할 때의 차이는 미미했다.
5. 결론
Probout은 맥스아웃의 비선형성, 비포화, 드롭아웃과의 시너지 등을 유지하면서 서브스페이스 풀링을 확률적으로 일반화한다. λ 파라미터를 층별로 조절함으로써 저층에서는 다양한 변환을 학습하고, 고층에서는 모델 평균화 효과를 극대화한다. 실험 결과는 CIFAR‑10/100, SVHN에서 기존 최첨단 방법과 동등하거나 더 나은 정확도를 입증한다. 향후 연구에서는 λ를 자동으로 학습하거나, 다른 네트워크 아키텍처(예: Residual, Transformer)와의 결합을 탐색할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기