그룹 이론으로 보는 딥러닝 작동 원리

본 논문은 “딥러닝이 왜 작동하는가?”라는 근본적인 질문에 대해 그룹 이론을 활용한 새로운 시각을 제시한다. 저자들은 최근 딥러닝 성공의 핵심 요인 중 하나인 사전학습(pre‑training)을 ‘입력 데이터를 재생성하는 변환을 찾는 과정’으로 정의하고, 이를 그룹 행동에서의 안정자(stabilizer)와 궤도(orbit) 개념에 매핑한다. 먼저, 자동인코더(auto‑encoder)를 예시로 들어, 학습 후 입력 f가 출력 f′≈f가 되는 변환 T를 ‘f의 안정자’라고 부른다. 그룹 G가 집합 X에 작용할 때, 한 원소 x∈X의 궤도 Oₓ는 G에 의해 x가 이동할 수 있는 모든 상태의 집합이며, 안정자 Sₓ는 x를 변형시키지 않는 부분군이다. 유한군에서는 |Oₓ|·|Sₓ|=|G| 라는 궤도‑안정자 정리가 성립하고, 연속군에서는 차원(dim) 혹은 Haar 측정으로 유사한 관계가 유지된다. 하지만 실제 신경망은 비선형 변환들의 복합체이므로 직접적인 군 구조를 갖지 않는다. 이를 보완하기 위해 저자들은 ‘섀도우 그룹’이라는 근사군을 정의한다. 섀도우 그룹은 네트워크 파라미터 공간을 국소적으로 선형화하거나, 변환을 연속적인 매핑으로 근사함으로써 그룹 행동과 유사한 성질을 갖는다. 이 가정 하에, 학습 과정을 무작위 워크(random walk) 혹은 마코프 체인(MCMC) 형태의 탐색으로 모델링한다. 탐색이 큰 안정자를 만나면 빠르게 수렴한다는 전제에 따라, 큰 안정자를 가진 변환—즉, 궤도가 작은 변환—이 먼저 발견된다고 주장한다. ‘단순함’은 궤도가 작아 변형 가능성이 적은 구조로 해석된다. 2‑차원 이미지의 경우, 직선(에지)은 다양한 선형 변환에 대해 비교적 작은 궤도를 가지며, 원이나 타원보다 큰 안정자 차원을 가진다. 논문은 GL(2,ℝ) 위에서 에지, 원, 타원에 대한 안정자 차원을 계산해, 에지의 안정자 차원이 2(비압축적인 원통 형태)이고 원·타원의 차원은 1이라는 구체적 예시를 제시한다. 이는 실제 딥러닝에서 첫 번째 층이 Gabor‑필터와 같은 에지 형태를 우선 학습한다는 경험적 관찰과 일치한다. 다층 구조에 대한 확장은 핵심적인 기여 중 하나이다. 각 층은 이전 층의 출력(새로운 ‘입력 공간’)에 대해 동일한 안정자‑궤도 메커니즘을 적용한다. 첫 번째 층에서 학습된 에지는 두 번째 층의 입력이 되며, 두 번째 층은 이러한 에지를 조합해 코너, 텍스처 등 더 복합적인 패턴을 학습한다. 이 과정이 반복되면서 점점 더 추상적인 고차원 표현이 형성된다. 저자들은 시그모이드 함수가 비선형성을 제공하면서도 연속적인 변환을 유지해 섀도우 그룹의 구조를 보존하는 역할을 강조한다. 논문의 주요 기여는 다음과 같다. (1) 자동인코더와 안정자 개념을 정량적으로 연결하고, 랜덤 워크가 큰 안정자를 우선 탐색한다는 직관을 수학적으로 뒷받침한다. (2) 실제 신경망이 군이 아님을 인정하고, 섀도우 그룹이라는 근사 구조를 정의·구축함으로써 그룹 이론을 적용할 수 있는 틀을 만든다. (3) 다층 네트워크에서 층별로 ‘단순한 특징 → 복합적인 특징’으로 전이되는 과정을 설명하고, 시그모이드와 같은 비선형 요소가 이 과정에 어떻게 기여하는지를 분석한다. 비판적으로 보면, 섀도우 그룹의 구체적 구성 방법과 그 근사 정도에 대한 정량적 평가가 부족하고, 제시된 이론을 검증하기 위한 실험적 결과가 제한적이다. 또한, 현대 딥러닝에서 사용되는 ReLU, 배치 정규화 등 다양한 비선형 기법을 포함한 경우에 이론이 어떻게 확장될 수 있는지에 대한 논의가 부족하다. 그럼에도 불구하고, 딥러닝의 학습 메커니즘을 대칭·안정자 관점에서 바라본 시도는 새로운 통찰을 제공하며, 향후 이론적 딥러닝 연구에 유용한 출발점을 제공한다.

그룹 이론으로 보는 딥러닝 작동 원리

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기