인공 신경망의 평생 구조 진화와 자가 조직화된 네트워크
본 논문은 최소 구조만을 가진 ‘Unstructured Recursive Network(URN)’를 제안하고, L1 가중치·활성도 정규화와 입력 데이터의 기하학적 특성을 이용한 손실 함수 설계가 훈련 과정에서 완전 연결, 지역 연결, 잔차(skip) 구조 등 다양한 신경망 토폴로지를 자동으로 형성하도록 함을 실험적으로 입증한다.
저자: Siavash Golkar
본 논문은 생물학적 신경망이 평생 동안 연결 구조를 재구성하는 유연성을 인공 신경망에 적용하고자 하는 목표에서 시작한다. 기존의 신경망 설계는 작업마다 별도의 아키텍처를 설계해야 하는 비효율성을 가지고 있으며, 최근의 신경망 구조 탐색(NAS) 연구는 특정 작업에 최적화된 구조를 자동으로 찾는 데 초점을 맞추고 있다. 그러나 이러한 접근은 여전히 “구조가 고정된” 상태에서 학습을 진행한다는 한계가 있다.
이를 극복하기 위해 저자들은 ‘Unstructured Recursive Network(URN)’라는 최소 구조만을 가진 모델을 제안한다. URN은 총 S개의 뉴런을 하나의 벡터 N에 담고, 동일한 S×S 가중치 행렬 W와 편향 b를 사용해 N을 I번 반복 업데이트한다. 수식으로는 N^{(l+1)} = φ(W·N^{(l)} + b) 로 정의되며, φ는 비선형 활성화 함수이다. 초기 W는 완전 밀집(He 초기화)이며, 블록 대각선 형태와 같은 사전 설계된 구조가 전혀 없다.
학습 목표는 일반적인 교차 엔트로피 손실에 두 개의 L1 정규화 항을 추가한 형태이다. 첫 번째는 가중치 행렬 W의 절대값 합에 대한 정규화(c_W·|W|)이며, 두 번째는 각 반복 단계에서의 뉴런 활성도 합에 대한 정규화(c_N·∑_l |N^{(l)}|)이다. 이 두 정규화 파라미터는 각각 네트워크가 불필요한 연결과 뉴런을 0으로 만들도록 압축하는 역할을 한다.
실험 1에서는 10차원 구형 쉘 데이터를 사용해 S=5000, I=4인 URN을 학습시켰다. 높은 정규화 강도(c_W=5e‑7, c_N=2e‑5)를 적용하면, 최종적으로 활성 뉴런이 약 120개 정도로 급감하고, 가중치 행렬이 명확한 블록 서브대각선 구조를 보이며 3개의 은닉층을 가진 MLP 형태가 드러났다. 이는 “재귀적 업데이트 횟수 I가 실제 은닉층 수와 일치한다”는 가설을 실증한다.
잔차 연결을 도입한 변형에서는 출력 뉴런에 누적합을 적용하는 업데이트 규칙 N^{(l+1)}_i = φ(W·N^{(l)} + b)_i + N^{(l)}_i (출력 영역에만) 를 사용한다. 이 경우 네트워크는 학습 초기에 출력 변화를 멈추고, 실제 사용된 층 수가 I보다 작아졌다. 즉, 잔차 메커니즘은 동적으로 필요한 깊이를 선택하게 만든다. 입력에 잔차를 추가하면 스킵 연결이 자연스럽게 형성되지만, 뉴런 활성 패턴이 복잡해져 해석이 어려워진다.
입력 데이터에 공간적 메트릭을 부여하고, 시냅스 길이 정규화(∑|W_ij|·d_ij^γ)를 손실에 포함시키면, 지역 연결(LCN) 구조가 자동으로 나타난다. 저자들은 CIFAR‑10 흑백 이미지를 60×60×6 격자에 임베딩하고, 시냅스 길이 정규화(c_len)와 함께 URN을 학습시켰다. 결과적으로 전방 가중치는 주로 z축이 증가하는 방향으로 집중되고, 다른 방향의 연결은 거의 사라져 10% 정도 정확도가 향상되었다. 이는 입력의 기하학적 특성이 네트워크 토폴로지를 결정한다는 가설을 뒷받침한다.
논의에서는 현재 URN이 주로 피드포워드 구조를 생성하지만, 과제 난이도에 따라 재귀적·순환적 구조가 나타날 가능성, 가중치 공유(컨볼루션)와 같은 추가 제약을 어떻게 도입할지, 그리고 왜 피드포워드 형태가 자주 등장하는지에 대한 이론적 설명이 아직 부족함을 인정한다. 또한, 연속적인 과제 학습(NEVER‑ENDING STRUCTURE ACCUMULATION, NESA) 시 URN이 점진적으로 깊이를 늘려가며 평생 학습을 수행할 수 있다는 전망을 제시한다.
결론적으로, URN은 “구조가 없는” 초기 상태에서 손실 함수와 정규화 항에 의해 데이터와 하이퍼파라미터에 맞는 최적의 네트워크 토폴로지를 스스로 찾아낸다. 이는 신경망 설계 비용을 크게 낮추고, 생물학적 신경망이 평생 동안 구조를 재구성하는 현상을 인공 시스템에 도입하려는 중요한 시도이며, 향후 이론적 분석과 더 복잡한 구조(순환, 가중치 공유 등)의 자동 발생 연구가 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기