신경망 해석과 학습을 위한 샤플리 기반 활성화와 그래디언트 설계

본 논문은 신경망의 해석 가능성과 “gradient vanishing” 문제를 동시에 해결하고자, ReLU 활성화 뉴런에 대한 샤플리 값(Shapley value)의 정확한 분석 근사를 제시한다. 먼저, 뉴런 출력 y = max(∑ w_i x_i + b, 0) 에 대해 입력 가중합 s = ∑ w_i x_i + b 를 정규분포(μ, σ²)로 근사하고, 샤플리 값 α_k 를 Φ(μ + b σ)·(w_k x_k + b)/n 로 표현한다(식 1). 여기서 Φ는 표준 정규 누적분포함수이며, n은 입력 차원이다. 이 근사는 기존 Monte‑Carlo 방식보다 계산 비용이 크게 낮으며, α_k 가 선형적으로 합산되어 y = Σα_i 라는 보존성을 유지한다. 이 보존성을 이용해 층별 관련성 전파(LRP)를 식 2 로 정의한다. r(x_k←y) = α_k / Σα_i · r(y) ≈ (w_k x_k + b) / (∑ w_i x_i + b) · r(y). Φ(·)는 분자·분모에서 소거되므로, ReLU와 선형 레이어 모두에 동일한 전파식이 적용된다. 이는 기존 LRP와 유사하지만, 분모에 작은 ε 를 추가해 0으로 나누는 상황을 방지한다. 다음으로, 샤플리 값이 비활성 상태에서도 비제로임을 이용해 그래디언트 소멸 문제를 해결한다. 전통적인 역전파에서 사용되는 ∂y/∂x_k 를 ∂α_k/∂x_k 로 대체한 “샤플리 그래디언트” 식 4 를 도출한다. 이 식은 Φ(μ + b σ)·w_k 와 추가적인 (w_k x_k + μ)·(μ + b)·w_k / (6σ³) 항을 포함한다. 실험에서는 두 번째 항을 무시하고 첫 번째 항만 사용해도 충분히 좋은 성능을 얻었다. 중요한 점은 σ 가 커질 경우(특정 입력이 크게 편향될 때) Φ가 급격히 변해 그래디언트가 크게 흐른다는 점이다. 이를 “예외에 대한 주의(attention to exception)”라 부르며, 깊은 네트워크에서 오프 상태인 뉴런도 중요한 신호가 들어오면 즉시 업데이트될 수 있게 만든다. 샤플리 그래디언트를 직접 구현하려면 자동 미분을 우회해야 하는데, 이를 간소화하기 위해 “샤플리 활성화(SA)” 함수를 제안한다. SA(s) ≈ Φ(μ + b σ)·s 로 정의되며, 전방 계산에서는 ReLU와 거의 동일한 형태를 유지한다. 역전파 시 자동 미분을 통해 바로 식 4와 일치하는 연속적인 그래디언트를 얻는다. SA는 전통적인 Leaky‑ReLU, Noisy‑ReLU와 달리 전역적으로 연속적이며, 입력 차원에 따라 복잡한 형태를 띠지만, 실제 구현에서는 2‑D 스캐터 플롯으로 시각화해도 Leaky‑ReLU와 유사한 거동을 보인다. 실험에서는 MNIST와 CIFAR‑10 데이터셋을 사용해 2‑계층 완전 연결 MLP와 3‑계층 CNN을 학습시켰다. 구현은 Julia의 Flux.jl 프레임워크를 이용해 ShapLU(샤플리 그래디언트 적용)와 SA를 각각 구현했으며, ReLU와 동일한 하이퍼파라미터(학습률, 배치 크기, 옵티마이저) 하에서 10번씩 재시도해 평균 정확도와 표준편차를 비교했다. 결과는 다음과 같다. 1. **수렴 속도**: ShapLU와 SA 모두 Adam 옵티마이저에서 4 epoch 만에 90 % 이상의 정확도에 도달했으며, ReLU 대비 30 %~40 % 빠른 수렴을 보였다. 2. **학습 안정성**: 표준편차가 작아 훈련 과정이 더 일관되었으며, 특히 작은 학습률(1e‑4)에서도 손실이 급격히 진동하지 않았다. 3. **Gradient Vanishing 완화**: 깊은 레이어에서의 파라미터 업데이트 빈도가 크게 증가했으며, 특히 오프 상태인 뉴런이 예외적인 입력을 받았을 때 급격히 활성화되는 현상이 관찰되었다(그림 1). 4. **최종 정확도**: MNIST에서는 ReLU 98.2 % 대비 SA 98.7 %, ShapLU 98.5 %를 기록했으며, CIFAR‑10에서도 비슷한 수준의 개선이 확인되었다. 논문의 주요 기여는 다음과 같다. (i) 샤플리 값의 분석 근사를 통해 ReLU 뉴런에 대한 선형적인 관련성 전파를 제공, 해석 가능성을 크게 향상시킴. (ii) 샤플리 그래디언트를 도입해 전역적으로 연속적이고 소멸되지 않는 역전파 신호를 제공, 깊은 네트워크 학습을 안정화. (iii) SA 함수를 제안해 기존 딥러닝 프레임워크에 손쉽게 적용 가능하도록 함. 한계점으로는 샤플리 근사가 입력 분포를 정규분포로 가정한다는 점이며, 비정규 데이터나 복잡한 상관관계가 있는 경우 근사 오차가 누적될 수 있다. 또한, 현재 구현은 완전 연결 레이어와 간단한 CNN에만 적용했으며, Transformer와 같은 복합 구조에 대한 확장은 아직 미진하다. 향후 연구에서는 근사 정확도를 높이는 방법, 다양한 아키텍처에의 적용, 그리고 Monte‑Carlo 기반 정확한 샤플리 값과의 정량적 비교가 필요하다.

신경망 해석과 학습을 위한 샤플리 기반 활성화와 그래디언트 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기