생성적 단어 임베딩 모델과 저랭크 양정 반정밀도 해법

본 논문은 단어와 문맥을 동일한 임베딩 공간에 매핑하는 생성적 확률 모델을 제안한다. 모델의 학습 목표는 PMI 행렬을 가중치가 부여된 저랭크 양정 반정밀도(PSD) 근사로 변환하는 것이며, 이를 위해 서브매트릭스에 대한 고유값 분해와 온라인 블록별 회귀를 결합한 효율적인 최적화 알고리즘을 설계하였다. 실험 결과, 제안 방법은 word2vec과 경쟁적인 성능을 보이며, 기존 MF 기반 방법보다 일관되게 우수함을 확인하였다.

저자: Shaohua Li, Jun Zhu, Chunyan Miao

생성적 단어 임베딩 모델과 저랭크 양정 반정밀도 해법
본 논문은 단어 임베딩을 위한 새로운 생성적 확률 모델을 제시하고, 이를 효율적으로 학습하기 위한 저랭크 양정 반정밀도(PSD) 근사 알고리즘을 개발하였다. 기존 연구를 두 갈래로 구분한다. 첫 번째는 소프트맥스 정규화를 이용해 단어와 문맥의 조건부 확률을 직접 모델링하는 신경망 기반 방법(word2vec, GloVe 등)이며, 두 번째는 특정 코퍼스 통계(예: PMI, 공기 빈도)를 행렬 형태로 재구성하고 이를 저랭크 행렬분해(MF)로 근사하는 방법이다. 신경망 방식은 높은 표현력을 갖지만, 정규화 계산이 복잡하고 대규모 코퍼스에 적용하기 위해 부정확한 근사(네거티브 샘플링 등)를 사용한다. 반면 MF 방식은 선형 대수 연산으로 효율적이지만, 일반적으로 M·Mᵀ 형태로 변환한 뒤 SVD를 적용하기 때문에 원본 행렬 G의 정보를 손실한다. 특히 비대칭 빅그램이나 희소한 빈도 정보를 제대로 보존하지 못한다는 점이 지적된다. 이를 극복하기 위해 저자는 단어와 문맥을 동일한 임베딩 공간에 매핑하고, 두 단어 사이의 상호작용을 선형 항 vᵀⱼvᵢ와 비선형 잔차 aᵢⱼ로 분리한다. 이때 aᵢⱼ는 비대칭성을 허용하도록 설계되어, 실제 언어에서 관찰되는 비대칭 빅그램 확률을 자연스럽게 모델링한다. 확률식은 P(sᵢ,sⱼ)=exp(vᵀⱼvᵢ + aᵢⱼ)·P(sᵢ)P(sⱼ) 로 정의되며, 로그 변환 후 PMI 행렬 G와 VᵀV + A = G 라는 행렬 방정식으로 정리된다. 여기서 V는 모든 단어 임베딩을 열벡터로 갖는 W×N 행렬, A는 잔차 행렬이다. 과적합 방지를 위해 각 임베딩 vₛ에 구형 가우시안 사전 N(0,½μₛI)를 부여하고, μₛ는 단어 빈도에 역비례하도록 설정한다. 잔차 aᵢⱼ에 대해서는 빅그램 빈도 hᵢⱼ=˜P(sᵢ,sⱼ) 에 기반한 가중치 함수 f(hᵢⱼ)를 적용한다. f는 GloVe에서 차용한 √hᵢⱼ 형태이며, 매우 빈번한 빅그램은 C_cut 으로 컷오프한다. 이렇게 정의된 정규화 항은 프롭니우스 노름 ‖A‖²_f(H) 로 표현되어, 잔차에 대한 가우시안 사전과 동일한 효과를 낸다. 문맥 윈도우 확장은 정보이론적 근사에 기반한다. 저자는 PMI(w₂;w₀,w₁)≈PMI(w₂;w₀)+PMI(w₂;w₁) 라는 가정을 두어, 다중 문맥 단어들의 상호작용 정보가 서로 상쇄된다고 가정한다. 이를 일반화하면 길이 c 의 텍스트에 대해 P(w₀,…,w_c)≈exp(∑_{i≠j}(vᵀ_{w_i}v_{w_j}+a_{w_i w_j}) + ∑_i log P(w_i)) 가 된다. 이 식을 이용해 마르코프 차수 c 를 갖는 생성 과정을 정의하고, 각 단어는 앞 c 개의 문맥 단어에 조건부로 생성된다. 학습 목표는 전체 코퍼스 로그우도 최대화이며, 대규모 코퍼스에서는 데이터 항이 사전 항을 압도하므로 사전 항을 무시하고 다음과 같은 최적화 문제로 귀결된다. max_{V,A} ∑_{i,j} x_{ij}(vᵀ_i v_j + a_{ij}) 여기서 x_{ij}는 (스무딩된) 빅그램 빈도이며, 최적화 해는 가중치가 부여된 PMI 행렬 G* 를 저랭크 PSD 행렬로 근사하는 것이다. 전통적인 SVD 기반 근사는 G·Gᵀ 를 분해하면서 정보 손실이 발생한다. 대신 저자는 고유값 분해(eigendecomposition)를 사용해 VᵀV = G - A 를 직접 근사한다. 그러나 전체 행렬에 대한 고유값 분해는 O(W³) 비용이 비현실적이므로, 희소 가중치 행렬을 활용해 서브매트릭스에 대해 부분 고유값 분해를 수행한다. 이후 블록코디네이트 디센트(Block Coordinate Descent) 방식으로 각 블록(단어 집합)마다 온라인 회귀를 수행한다. 이 과정은 (1) 서브매트릭스의 고유값을 구해 초기 V를 얻고, (2) 각 블록에 대해 v_s를 고정한 채 a_{ij}를 업데이트, (3) 다시 V를 업데이트하는 순환 구조로 이루어져, 메모리 사용량을 크게 줄이고 스트리밍 데이터에도 적용 가능하게 만든다. 실험에서는 7개의 표준 벤치마크(WordSim-353, MEN, SimLex-999, Google Analogy, MSR Analogy 등)를 사용했다. 제안 방법은 word2vec과 거의 동등한 성능을 보였으며, 특히 MF 기반 방법들(전통적인 SVD, CCA, GloVe 기반 MF 등)보다 일관되게 높은 점수를 기록했다. 또한, 임베딩 차원을 늘렸을 때 성능이 안정적으로 향상되는 특성을 보였으며, 학습 시간도 온라인 블록 회귀 덕분에 경쟁적인 수준을 유지했다. 코드가 공개되어 재현 가능성이 높다. 결론적으로, 이 논문은 (1) 단어와 문맥을 동일한 임베딩 공간에 매핑하는 명시적 생성 모델을 제시하고, (2) SVD 대신 고유값 분해와 블록 회귀를 결합한 저랭크 PSD 근사 알고리즘을 설계함으로써 기존 MF 방식의 정보 손실을 극복했다. 또한, 생성 모델의 확률적 해석을 통해 향후 토픽, 감성, 스타일 등 전역적인 잠재 변수를 자연스럽게 통합할 수 있는 기반을 제공한다는 점에서 학술적·실용적 의의가 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기