적응형 토폴로지를 활용한 초희소 신경망의 견고함
** 본 연구는 99% 희소성을 가진 3개의 은닉층과 하나의 밀집 출력층으로 구성된 초희소 인공신경망을, 에폭마다 토폴로지를 재구성하는 동적 희소 학습(ESML) 방식으로 훈련시킨 뒤, 다양한 구조·가중치 교란에 대한 견고성을 평가한다. 무작위 재연결(RLR)과 연결 예측 기반 CH3L3 두 가지 재연결 전략을 비교했으며, 두 방법 모두 높은 정확도를 유지하면서도 교란에 대한 복원력을 보였다. 특히, 큰 가중치를 우선 제거하는 ‘Weight…
저자: Bendegúz Sulyok, Gergely Palla, Filippo Radicchi
**
본 논문은 “Robustness in sparse artificial neural networks trained with adaptive topology”라는 제목으로, 99% 희소성을 갖는 3개의 은닉층과 하나의 밀집 출력층으로 구성된 초희소 신경망을 동적 토폴로지 업데이트와 함께 학습시킨 뒤, 다양한 교란에 대한 견고성을 체계적으로 분석한다. 연구 배경으로는 현대 딥러닝 모델이 수십억 개의 파라미터를 보유하면서 연산·메모리·에너지 비용이 급증하고, 반면 인간 뇌는 극히 희소한 연결 구조로 높은 효율성을 달성한다는 점을 들었다. 이러한 관점에서, 인공 신경망에서도 희소성을 도입하는 연구가 활발히 진행되고 있으나, 희소 네트워크가 실제 교란 상황에서 얼마나 견고한지는 충분히 탐구되지 않았다.
**1. 네트워크 구조 및 학습 프로세스**
- 입력층: 28×28=784 픽셀
- 은닉층: 3개의 레이어, 각각 1000 뉴런, 99% 희소성(전체 가능한 연결 중 1%만 존재)
- 출력층: 10 뉴런(분류용)으로 마지막 은닉층과 완전 연결(dense)
- 초기 연결은 무작위로 선택하고, 가중치는 평균 0, 표준편차 σ= q·√f_in(정규분포) 로 초기화한다.
학습은 매 에폭마다 두 단계로 진행된다. 첫 번째 단계는 전통적인 역전파를 통해 가중치를 업데이트하고, 두 번째 단계는 토폴로지를 재구성한다. 토폴로지 재구성은 (i) 현재 연결 중 일정 비율을 삭제하고, (ii) 동일한 수의 새로운 연결을 삽입하는 방식이다. 삽입 전략은 두 가지가 있다.
- **Random Link Regrowth (RLR)**: 새로운 연결을 무작위로 선택한다. 구현이 간단하고 연산 비용이 낮다.
- **CH3L3 heuristic**: Cannistraci‑Hebb 기반의 연결 예측 규칙을 적용해, 현재 네트워크 구조에서 가장 높은 존재 확률을 가진 미연결 쌍을 선택한다.
두 전략은 실험 전 과정에서 일관되게 사용되었으며, 토폴로지 업데이트 시간은 RLR이 CH3L3보다 약 2배 빠른 것으로 보고되었다.
**2. 정확도 및 수렴 특성**
MNIST, Fashion‑MNIST, KMNIST, EMNIST‑Letters 네 개 데이터셋에 대해 10번씩 다른 시드로 1000 에폭 학습을 수행했다. 결과는 다음과 같다.
- CH3L3은 초기 수렴 속도가 빠르며, 200~300 에폭 내에 최종 정확도에 근접한다.
- RLR은 수렴이 다소 느리지만, 최종 정확도는 CH3L3과 통계적으로 유의미한 차이가 없었다(단, KMNIST에서는 CH3L3이 약간 우위).
- 두 방법 모두 99% 희소성에도 불구하고, dense 모델에 근접한 정확도(>97% MNIST, >88% Fashion‑MNIST 등)를 달성했다.
**3. 견고성 평가**
학습이 완료된 모델에 대해 사후 교란을 가한다. 교란은 가중치·연결 구조를 변형하는 다섯 가지 방식으로 정의되었다.
- **Random Pruning**: 레이어별로 무작위로 연결을 제거한다.
- **Weight Order Pruning**: 절대값이 큰 가중치부터 순차적으로 제거한다.
- **Reverse Weight Order Pruning**: 절대값이 작은 가중치부터 제거한다.
- **Weight Shuffling**: 같은 레이어 내에서 일정 구간(bin)별로 가중치를 섞는다.
- **Weight Modification**: 정규분포(μ=0, σ= m·\bar{w}) 잡음을 가중치에 추가한다.
각 교란은 0~1 비율(전체 연결 또는 가중치 범위 대비)로 단계적으로 적용했으며, 교란 후 재학습 없이 바로 테스트 정확도를 측정했다.
**주요 결과**
- **Weight Order Pruning**은 1~5% 연결만 제거해도 정확도가 급격히 하락했다. 이는 큰 가중치가 모델 성능에 핵심적인 역할을 함을 보여준다.
- **Random Pruning**은 선형에 가까운 완만한 감소 곡선을 보이며, 80% 정도까지 연결을 제거해도 정확도가 50% 이상 유지되는 경우가 있었다.
- **Reverse Weight Order Pruning**은 가장 견고한 교란으로, 80%까지 연결을 삭제해도 정확도 저하가 미미했다. 이는 약한 연결이 모델에 크게 기여하지 않음을 의미한다.
- **Weight Shuffling**과 **Weight Modification**은 초기 단계에서 급격히 정확도를 감소시켰지만, 일정 수준 이상 교란이 진행되면 두 방법 간 차이가 역전되는 현상이 관찰되었다. CH3L3 모델은 Weight Modification에 대해 약간 더 높은 복원력을 보였다.
**재연결 전략별 차이**
- RLR은 Reverse Weight Order Pruning에 대해 전반적으로 더 높은 복원력을 보였다.
- CH3L3은 Random Pruning과 일부 데이터셋(Fashion‑MNIST, KMNIST)에서 약간 우수했다.
- Weight Order Pruning에 대한 차이는 데이터셋에 따라 달라졌으며, MNIST와 Fashion‑MNIST에서는 CH3L3이 미세하게 우세했지만 KMNIST와 EMNIST‑Letters에서는 RLR이 더 좋았다.
- Weight Shuffling에 대해서는 데이터셋마다 결과가 뒤바뀌어 일관된 결론을 내리기 어려웠다.
**4. 가중치 분포 분석**
학습 종료 시 두 전략에 대한 가중치 절대값 분포를 레이어별로 조사했다. 공통적으로 0 근처에 뚜렷한 최소값이 나타났으며, 이는 매 에폭마다 가장 약한 연결을 지속적으로 제거하기 때문이다. 그 뒤로는 정규분포 초기값에 의해 형성된 작은 피크가 존재한다.
CH3L3은 중간 가중치 구간(0.2~1)에서 RLR보다 낮은 밀도를 보였으며, 이는 연결 예측이 큰 가중치를 가진 연결을 더 오래 유지하고, 새로운 연결을 삽입할 때는 상대적으로 작은 가중치를 부여한다는 해석이 가능하다. 반면, RLR은 무작위 삽입으로 인해 중간 가중치가 많이 축적된다. 대형 가중치(>1)의 경우 데이터셋마다 차이가 있었으며, MNIST와 EMNIST에서는 CH3L3이 더 높은 비중을 차지했다.
**5. 논의 및 시사점**
본 연구는 초희소 네트워크가 적응형 토폴로지를 통해 효율성과 견고성을 동시에 달성할 수 있음을 실증한다. 특히, 동적 재배선은 네트워크가 중요한 연결을 유지하면서도 불필요한 연결을 지속적으로 정리하도록 하여, 구조적 교란에 대한 내성을 강화한다. CH3L3과 RLR은 각각 수렴 속도와 특정 교란에 대한 복원력에서 장단점을 가지고 있어, 실제 적용 환경(예: 실시간 학습, 제한된 연산 자원, 보안 위협 등)에 따라 선택이 필요하다.
또한, 가중치 분포 분석은 “큰 가중치가 성능에 핵심”이라는 기존 가설을 재확인함과 동시에, 중간 가중치의 분포가 교란에 대한 민감도와 연관될 수 있음을 보여준다. 향후 연구에서는 (1) 토폴로지 업데이트 비율 및 스케줄을 최적화, (2) 보다 복잡한 데이터셋·아키텍처(예: CIFAR‑10, ResNet)에서의 확장성 검증, (3) 하드웨어 구현 시 메모리·연산 절감 효과를 정량화하는 작업이 필요하다.
결론적으로, 적응형 토폴로지를 갖는 초희소 신경망은 자원 제한 환경에서 높은 정확도와 교란에 대한 강인성을 동시에 제공할 수 있는 유망한 설계 패러다임이며, 향후 AI 시스템의 지속 가능성과 신뢰성을 높이는 핵심 기술이 될 것으로 기대된다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기