함수형 신경망 설계: 고차 귀납형 타입으로 구성 가능한 구조

본 논문은 현대 신경망이 합성 일반화에 지속적으로 실패한다는 현상을 “디코더가 단조함자(monidal functor)이어야 한다”는 수학적 조건으로 재해석한다. 입력을 단어열로 보고, 이를 그룹 G(예: ℤ², F₂, ℤ⋊ℤ)의 원소로 해석한다면, 디코더 D는 G의 곱(단어 연결)과 목표 공간 X의 경로 연결을 보존해야 한다. 즉, D(w₁·w₂)=D(w₁)⊕D(w₂)라는 식이 모든 파라미터와 길이에 대해 성립해야 하며, 이를 만족하는 디코더는 G→ParLoop(X) 사이의 단조함자가 된다. 이를 실현하기 위해 저자들은 고차 귀납형 타입(Higher Inductive Types, HIT) 사양을 신경망 구조로 자동 변환하는 “컴파일러 함자”를 정의한다. HIT는 (i) 기본점, (ii) 루프(생성자), (iii) 2‑셀(관계)로 구성되며, 각각을 (i) MLP 기반 파라메트릭 루프, (ii) 구조적 연결(리스트-앱펜드), (iii) 학습 가능한 동형사상(자연 변환)으로 매핑한다. 이 과정에서 각 생성기 네트워크는 해당 동치류에 속하는 모든 루프를 근사하도록 설계되고, 2‑셀은 그룹 관계를 만족하도록 학습된다. 핵심 정리 3.3은 이러한 “전송 디코더(transport decoder)”가 구조적 연결만을 사용함으로써 엄격한 단조함수(strict monoidal functor)임을 증명한다. 파라메트릭 루프의 연산 ⊕는 리스트-앱펜드와 동등하게 구현되며, 연관법칙과 단위 원소를 파라미터와 무관하게 만족한다. 따라서 D(w₁·w₂)=D(w₁)⊕D(w₂)가 언제나 성립한다. 반면, 정리 4.1은 소프트맥스 자기주의(attention)가 어떠한 파라미터 설정에서도 단조함자를 이룰 수 없음을 보인다. 자기주의는 각 위치의 출력이 다른 위치의 토큰 자체에 의존하므로, 동일한 군 원소를 나타내는 서로 다른 토큰 순열에 대해 서로 다른 출력이 발생한다. 이는 함수형 디코더가 요구하는 “동일 군 원소에 대해 동일한 효과”와 모순된다. 실험은 세 가지 토폴로지 공간을 대상으로 진행되었다. 첫 번째는 토러스 T²로, π₁(T²)=ℤ²이며 2‑셀 surf가 교환 관계를 강제한다. 두 번째는 두 원의 합동 S¹∨S¹로, π₁=F₂이며 관계가 없으므로 자유군 구조만 필요하다. 세 번째는 켈린 병 K로, π₁=ℤ⋊ℤ이며 비가환 관계 bab⁻¹=a⁻¹을 2‑셀로 학습한다. 각 공간마다 길이 ≤2인 모든 단어를 학습 데이터로 사용하고, 길이 3,4,6,8,10의 미지 단어를 테스트한다(최대 5배 길이 extrapolation). 전송 디코더는 길이가 늘어나도 세그먼트당 오류가 일정하게 유지돼, 전체 오류가 토러스에서 2‑2.7배, S¹∨S¹에서 5.5‑10배, 켈린 병에서는 2‑셀 학습을 통해 관계 오류가 46% 감소하는 등 비함수형(타입‑A) 모델에 비해 현저히 높은 성능을 보였다. 특히 켈린 병에서는 2‑셀을 학습하지 않으면 전역적으로 일관성 없는 루프가 생성되지만, 학습된 2‑셀은 정확히 bab⁻¹와 a⁻¹ 사이의 동형을 구현한다. 이론적 분석에서는 함수형 설계가 “구조적 독립성”을 보장함으로써 일반화 오류가 O(1) 수준으로 제한된다는 점을 강조한다. 반면, 비함수형 모델은 어텐션 패턴이 훈련 길이 밖에서 out‑of‑distribution이 되면서 오류가 선형적으로 증가한다. 또한, 비가환 군의 경우 깊이 제한(depth)과 결합된 복합적인 어려움이 존재함을 논의한다(정리 H.2). 마지막으로, 논문은 Cubical Agda를 이용해 정리 3.3과 4.1을 형식 검증하고, 실험을 통해 이론적 예측을 실증함으로써 고차 귀납형 타입과 범주론적 딥러닝을 연결하는 새로운 설계 패러다임을 제시한다. 이 접근법은 합성 일반화를 보장하는 신경망을 자동으로 생성할 수 있게 하며, 향후 복잡한 구조적 작업(예: 프로그래밍 언어 이해, 로봇 경로 계획 등)에 적용될 가능성을 열어준다.

함수형 신경망 설계: 고차 귀납형 타입으로 구성 가능한 구조

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기