초기 가중치와 이중 표현을 통한 딥러닝 이해의 새로운 시각
본 논문은 신경망과 합성 커널 사이의 일반적인 이중성을 제시한다. 일반적인 무작위 초기화가 생성하는 표현은 해당 커널 공간의 모든 함수를 근사할 수 있을 정도로 풍부함을 증명하고, 따라서 학습 초기에 좋은 시작점을 제공한다. 또한 계산 골격(computation skeleton)이라는 추상 구조를 도입해 네트워크 설계와 표현력 분석을 통합한다.
저자: Amit Daniely, Roy Frostig, Yoram Singer
본 논문은 “신경망과 합성 커널 사이의 일반적인 이중성”을 제시하며, 이를 통해 딥러닝의 핵심 메커니즘을 보다 체계적으로 이해하고자 한다. 저자들은 먼저 ‘계산 골격(computation skeleton)’이라는 새로운 개념을 도입한다. 골격은 입력 노드와 출력 노드 사이의 연산 흐름을 DAG 형태로 압축한 추상 구조이며, 각 내부 노드는 특정 활성화 함수로 라벨링된다. 골격 하나는 동일한 토폴로지를 공유하는 여러 실제 신경망을 생성할 수 있는 템플릿 역할을 한다.
골격을 실제 네트워크로 구현하는 과정은 두 개의 파라미터, 복제 수 r과 출력 차원 k에 의해 정의된다. 각 입력 노드는 d개의 입력 뉴런과 연결되고, 내부 노드는 r개의 복제 유닛을 갖는다. 출력 노드는 선형(identity) 활성화를 사용한다. 이때 가중치는 일반적인 무작위 초기화 방식을 따르며, 각 가중치는 평균 0, 분산 1/(fan‑in)인 정규분포에서 샘플링한다.
핵심 정리는 “무작위 초기화가 생성하는 내부 표현은 해당 골격이 정의하는 함수 클래스 H의 모든 함수를 마지막 레이어 가중치만으로 근사할 수 있다”는 것이다. 여기서 H는 골격 구조에 따라 비선형 조합으로 정의된 가설 공간이며, 각 함수는 여러 층을 거친 비선형 변환의 결과물이다. 논문은 이를 수학적으로 증명하기 위해 ‘dual activation’ 개념을 도입한다. 활성화 σ에 대해 dual activation은 σ의 가우시안 기대값 형태로 정의되며, 이는 해당 레이어가 구현하는 커널 κσ(x, x′)=E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기