SOTAlign 최적 전송 기반 반지도학습 비전 언어 모델 정렬

본 논문은 사전 학습된 비전 인코더와 언어 인코더를 그대로 두고, 경량 정렬 레이어만을 학습함으로써 멀티모달 공동 임베딩 공간을 구축하는 방법을 제시한다. 기존 CLIP·ALIGN 계열은 수억 개의 이미지‑텍스트 쌍을 필요로 했지만, 실제 산업·의료·과학 분야에서는 라벨링 비용이 크게 제한된다. 이를 해결하고자 저자들은 “반지도학습” 설정을 정의한다. 즉, 매우 적은 수의 정확히 매칭된 쌍 데이터(A, B)와, 대규모 비쌍 이미지 집합 X, 비쌍 텍스트 집합 Y만을 이용한다. 첫 번째 단계인 Linear Alignment에서는 제한된 쌍 데이터를 이용해 선형 변환 행렬 Wₓ∈ℝ^{dₓ×d′}, Wᵧ∈ℝ^{dᵧ×d′} 를 학습한다. 여기서는 Orthogonal Procrustes, Canonical Correlation Analysis, 혹은 선형 대비 학습(InfoNCE·SigLIP) 중 하나를 선택할 수 있다. 실험 결과, 이 선형 교사만으로도 이미지와 텍스트 사이의 코사인 유사도가 상당히 높아지며, “플라톤 표현 가설”이 실제로 성립함을 보여준다. 두 번째 단계인 SOTAlign에서는 fθ₁:ℝ^{dₓ}→ℝ^{d} 와 gθ₂:ℝ^{dᵧ}→ℝ^{d} 라는 경량 정렬 레이어를 도입한다. 배치 샘플 X_b, Y_b 를 추출하고, 현재 모델이 만든 유사도 행렬 K = cosine(fθ₁(X_b), gθ₂(Y_b)) 와 선형 교사가 만든 목표 행렬 K* = cosine(X_b Wₓᵀ, Y_b Wᵧᵀ) 를 비교한다. 여기서 핵심은 DIV(K‖K*) 로 사용되는 KLOT 발산이다. KLOT은 엔트로피 정규화된 최적 전송 플랜 Πₙ을 정의하고, OT_ε(K) = argmin_{P∈Πₙ} −⟨P, K⟩ + ε H(P) 를 통해 Softmax와 동일한 형태를 갖지만, 전체 매칭 구조를 보존한다. 저자들은 KLOT의 미분식을 명시적으로 유도해, 기존 OT‑CLIP이 배치 크기에 제한을 받던 문제를 해결하고, GPU 메모리 사용량을 크게 줄였다. 최종 손실은 L = L_pair(A, B) + α·KLOT(K, K*) 이며, L_pair은 선형 교사에 대한 대비 손실(예: SigLIP)이다. 실험에서는 다양한 사전 학습 인코더(CLP‑ViT‑B/16, ResNet‑50, BERT‑base 등)와 여러 데이터셋(COCO, Flickr30K, ImageNet, CC12M)을 조합해 평가했다. 특히 1 %~5 % 수준의 쌍 데이터만 사용했을 때도, 완전 감독 대비 5~12 % 높은 Recall@1을 기록했으며, 비쌍 데이터만을 활용한 경우에도 기존 반지도학습 기법(S‑CLIP, SUE)보다 일관되게 우수했다. 또한, 서로 다른 도메인에서 온 이미지와 텍스트를 혼합해 학습했을 때도 성능 저하가 거의 없었으며, α 값에 대한 민감도 분석에서도 넓은 범위에서 안정적인 결과를 보였다. 추가 실험으로는 (1) 선형 교사의 종류별 영향, (2) KLOT vs. CKA vs. 일반 InfoNCE 비교, (3) 배치 크기와 메모리 효율성 측정이 포함된다. KLOT은 CKA가 요구하는 강한 K≈K* 제약을 완화하면서도, 일반 InfoNCE가 놓치는 전체 매칭 정보를 보존한다는 점에서 최적의 선택임을 입증한다. 결론적으로, SOTAlign은 제한된 라벨 환경에서도 강력한 비전‑언어 정렬을 가능하게 하며, 플라톤 표현 가설을 실험적으로 검증한다. 선형 교사와 최적 전송 기반 정규화라는 두 축을 결합함으로써, 기존 대규모 대비 학습에 비해 데이터 효율성을 크게 향상시킨다. 향후 연구에서는 다중 모달리티(오디오·비디오) 확장, 그리고 도메인 적응을 위한 동적 α 스케줄링 등이 제안된다.

SOTAlign 최적 전송 기반 반지도학습 비전 언어 모델 정렬

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기