계층 모델을 작은 상호작용 모델의 주변분포로 표현하기

이 논문은 이진 변수에 대한 계층적 로그선형 모델을, 보다 낮은 차원의 쌍별 상호작용 모델(특히 제한된 볼츠만 머신)의 주변분포로 나타낼 수 있음을 보인다. 핵심은 소프트플러스(soft‑plus) 활성함수를 갖는 신경망이 다항식 형태의 에너지 함수를 얼마나 자유롭게 구현할 수 있는지를 분석하는 것이다. 이를 통해 기존 결과보다 훨씬 적은 수의 은닉 이진 변수를 사용해 모든 가능한 이진 분포를 근사할 수 있음을 증명한다.

저자: Guido Montufar, Johannes Rauh

계층 모델을 작은 상호작용 모델의 주변분포로 표현하기
본 논문은 “계층 모델을 작은 상호작용 모델의 주변분포로”라는 질문을 중심으로 전개된다. 먼저 섹션 2에서는 이산 변수 집합 V와 그 위의 계층적 로그선형 모델 E_{X,S}= {p(x)=exp(g(x))/Z | g∈V_{X,S}}를 정의하고, 은닉 변수 집합 H를 도입한 확장 모델 E_{X×Y,T}와 그 주변분포 M_{X×Y,T}를 소개한다. 여기서 T가 |λ∩H|≤1인 경우, 즉 은닉 변수들 간 직접 상호작용이 없고 가시 변수와만 쌍별 연결을 갖는 경우가 제한된 볼츠만 머신(RBM)이다. 문제 정의는 “주어진 가시 변수 집합 V와 상호작용 복합체 S에 대해, 어떤 H와 T가 존재하여 E_{X,S}⊂M_{X×Y,T}가 되는가?”이며, 이는 에너지 함수 E(x)=∑_{Λ∈S}J_Λ∏_{i∈Λ}x_i를 자유에너지 F(x)=log∑_y exp(g(x,y)) 형태로 변환할 수 있는지를 묻는 것과 동치이다. 섹션 3에서는 소프트플러스 유닛 φ(x)=log(1+exp(w·x+c))가 생성하는 다항식 계수 K_B(w,c)를 Möbius 역전식 (8)을 통해 명시한다. Lemma 1은 단일 최고차 항 B에 대해 K_B를 임의의 실수값으로 만들 수 있음을 보이며, 이는 기존 연구와 일치한다. 그러나 저자는 여기서 한 유닛이 여러 계수를 동시에 제어할 수 있음을 탐구한다. Lemma 2는 “edge pair”(B,B′)를 고려한다. |B|=1이면 K_B와 K_{B′}는 부호가 반대인 관계만 필요하고, |B|=2,3에서는 부호 제약이 추가된다. 하지만 |B|≥4이면 어떤 실수쌍 (J_B,J_{B′})도 ε-근사로 구현 가능함을 증명한다. 이는 고차 상호작용을 포함하는 다항식이 적은 수의 은닉 유닛으로도 자유롭게 표현될 수 있음을 의미한다. 다음으로 Lemma 5는 “star tuple”이라 부르는 B∪{j} (j∈B′, B∩B′=∅) 형태의 다중 계수 집합을 한 유닛으로 동시에 근사하는 방법을 제시한다. 여기서는 B에 속한 가중치를 큰 양수 ω로, 편향 c를 −( |B|−½)ω 로 설정해 B에 해당하는 입력이 소프트플러스의 거의 선형 구간에 머물게 만든다. 결과적으로 K_{B∪{j}}≈J_{B∪{j}}가 되고, 다른 모든 계수는 거의 0이 된다. 이 구성은 은닉 변수 하나가 |B|+|B′|개의 고차 상호작용을 동시에 모델링할 수 있음을 보여준다. 섹션 4에서는 위 결과들을 RBM에 적용한다. 기존 문헌(예: Younes 2017)에서는 순수 고차 상호작용의 개수 M에 대해 M개의 은닉 변수가 필요하다고 주장했으며, 완전 상호작용 모델(모든 2^v−v−1개의 고차 항)에는 2^v−1−1개의 은닉 변수가 필요하다고 알려졌다. 저자는 Lemma 2와 Lemma 5를 결합해, 각 은닉 변수가 여러 고차 항을 동시에 담당하도록 설계함으로써 필요한 은닉 변수 수를 크게 감소시킨다. 구체적으로, 가시 변수 v개에 대해 모든 이진 분포를 근사하기 위해 충분히 작은 h가 존재함을 보이며, 그 상한은 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기