부분 소프트 매칭 거리: 신경 표현 비교를 위한 새로운 최적 수송 방법

본 논문은 신경 과학과 인공지능 분야에서 서로 다른 시스템 간의 표현을 비교할 때, “어떤 유닛이 서로 대응되는가”라는 근본적인 질문에 초점을 맞춘다. 기존의 대표적인 표현 유사도 지표(CKA, RSA, Procrustes, CCA 등)는 회전 불변성을 갖지만, 이는 개별 뉴런 수준의 축 정렬 정보를 잃게 만든다. 최근 Khosla & Williams(2024)가 제안한 소프트 매칭 거리(Soft‑Matching Distance)는 각 뉴런을 튜닝 커브(또는 응답 벡터)로 보고, 두 집단을 동일한 총 질량을 갖는 확률분포로 모델링해 최적 수송 행렬 T를 찾음으로써 회전 민감한 일대일 매칭을 제공한다. 그러나 이 방법은 모든 유닛을 반드시 매칭해야 한다는 제약을 갖는다. 실제 뇌 기록(fMRI, 전기생리학)이나 딥러닝 모델에서는 잡음, 비활성, 혹은 모델 고유의 특수 유닛이 존재해 전부를 매칭하면 스푸리어스 매칭이 발생하고, 거리값이 왜곡된다. 이에 저자들은 “부분 소프트 매칭 거리(Partial Soft‑Matching Distance)”를 제안한다. 핵심 아이디어는 부분 최적 수송(Partial OT) 프레임워크를 도입해, 전체 질량 중 일부 s(0≤s≤1)만을 매칭에 사용하도록 허용하는 것이다. 구체적으로 두 신경 집단 X∈ℝ^{M×Nₓ}, Y∈ℝ^{M×Nᵧ}를 각각 단위 질량을 갖는 경험적 분포로 간주하고, 비용 행렬 C_{ij}=‖x_i−y_j‖²(또는 코사인 거리) 를 정의한다. 전통적인 OT는 행·열 마진이 각각 1/Nₓ, 1/Nᵧ 로 정확히 맞춰져야 하지만, 부분 OT에서는 행·열 마진이 ≤1/Nₓ, ≤1/Nᵧ 로 제한되고, 전체 매칭 질량 Σ_{ij}T_{ij}=s 로 설정한다. 이렇게 하면 매칭되지 않은 유닛은 행·열 합이 거의 0에 가까운 “가상” 상태로 남는다. 알고리즘 구현은 다음 단계로 구성된다. 첫째, 다양한 s 값을 균등하게 샘플링한다(예: 0.1~1.0). 둘째, 각 s에 대해 부분 OT 문제를 해결해 최적 전송 행렬 T(s)와 비용 ζ(s)=⟨T(s),C⟩를 얻는다. 셋째, ζ(s)와 정규화 파라미터 ρ(s)=1−s를 2‑차원 좌표 (ζ,ρ) 로 매핑해 L‑curve를 만든다. L‑curve는 비용 감소와 매칭 질량 감소 사이의 트레이드오프를 시각화한다. 넓은 곡률(엘보) 지점이 가장 균형 잡힌 s₀를 의미한다. 저자들은 이 엘보를 찾기 위해 이산적인 두 번째 차분 δ²ζ_i를 계산하고, |δ²ζ_i|가 최대인 i를 선택한다. 이렇게 자동으로 선택된 s₀는 데이터에 내재된 노이즈 수준을 반영한다. 이론적으로 부분 소프트 매칭 거리는 대칭성을 유지하지만, 질량 보존이 깨지므로 삼각 부등식을 만족하지 않아 엄밀한 메트릭은 아니다. 그러나 매칭되지 않은 유닛을 명시적으로 구분함으로써 “매칭 품질”을 정량화하고, 실제 공통 구조를 더 정확히 추정한다는 장점이 있다. 실험은 크게 세 파트로 나뉜다. 1) **시뮬레이션 – 노이즈 강인성**: K개의 신호 유닛을 가진 두 집단에 각각 Mₓ, Mᵧ개의 무작위 잡음 유닛을 추가한다. 전체 유닛 수가 다를 때, 기존 소프트 매칭은 모든 유닛을 매칭하려 하여 잡음‑잡음 매칭을 강제하고, 전체 비용이 크게 증가한다. 반면 부분 소프트 매칭은 L‑curve가 선택한 s≈K/(K+M) 정도에서 잡음 유닛을 자동 배제하고, 비용이 실제 신호 매칭만을 반영한다. 시각화된 전송 행렬에서도 신호‑신호 매칭은 어두운 색(강한 매칭)으로, 잡음 유닛은 거의 0에 가까운 행·열 합을 보인다. 2) **모델 선택**: 기준 집단 X와 두 후보 모델 Yₐ, Y_b를 만든다. Yₐ는 X와 동일한 K 신호 유닛에 추가 잡음 유닛을 포함하고, Y_b는 신호 유닛이 부분적으로만 겹친다. 부분 소프트 매칭 점수 d_corr(Yₐ,X)=0.715, d_corr(Y_b,X)=0.645 로 Yₐ를 올바르게 식별한다. 반면 기존 소프트 매칭은 잡음 매칭으로 인해 Y_b가 더 높은 점수를 받아 잘못된 선택을 한다. 3) **fMRI 데이터 적용**: Natural Scenes Dataset(NSD)에서 두 피험자 간 V1~V3 영역의 voxel 응답을 비교한다. 각 voxel의 튜닝 커브를 정규화한 뒤, 부분 소프트 매칭을 수행한다. s를 감소시켜 (즉, 더 많은 voxel을 배제) 평균 noise‑ceiling이 상승하고, 영역 간 정렬 점수도 향상된다. 이는 매칭되지 않은 voxel이 실제로 신호 신뢰도가 낮은 것을 의미한다. 딥러닝 모델에 적용한 결과도 흥미롭다. 동일 구조의 두 네트워크에서 부분 소프트 매칭으로 높은 매칭 점수를 받은 유닛들은 각각의 최대 자극 이미지(MEI)를 시각화했을 때, 매우 유사한 시각 패턴을 보였다. 반대로 매칭되지 않은 유닛은 서로 다른 이미지와 특징을 나타냈다. 이는 부분 매칭이 실제 기능적 유사성을 포착한다는 강력한 증거다. 마지막으로, 기존에 제안된 brute‑force 반복 제거 방식(매번 OT 후 가장 낮은 상관을 가진 유닛을 제거하고 재계산)은 O(n⁴log n) 복잡도를 갖지만, 부분 소프트 매칭은 한 번의 L‑curve 샘플링과 O(n³log n) OT 해결만으로 동일한 유닛 선택 정확도를 달성한다. 따라서 대규모 신경 데이터셋이나 수천 개 유닛을 가진 딥 네트워크 비교에 실용적인 솔루션을 제공한다. **결론**: 부분 소프트 매칭 거리는 (1) 질량 보존을 완화해 노이즈와 비대응 유닛에 강인하고, (2) L‑curve 기반 자동 정규화 선택으로 사용자의 파라미터 튜닝 부담을 없애며, (3) 효율적인 O(n³log n) 구현으로 대규모 분석에 적용 가능하고, (4) 매칭 품질에 기반한 유닛/voxel 선택을 제공함으로써 신경 과학과 인공지능 양쪽에서 의미 있는 해석을 가능하게 한다.

부분 소프트 매칭 거리: 신경 표현 비교를 위한 새로운 최적 수송 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기