함수 임베딩 기반 그래프 커널

본 논문은 그래프 유사도 측정을 위한 새로운 커널, 즉 “Power Kernel”을 제안한다. 기존 그래프 커널은 서브그래프 카운팅, 랜덤 워크, 최단 경로 등 다양한 구조적 특징을 이용했지만, 정점 순열에 민감하거나 계산 비용이 높다는 한계가 있었다. 저자들은 이러한 문제를 해결하기 위해 그래프를 함수적 객체로 임베딩하는 방식을 도입한다. 먼저, 그래프 G의 인접 행렬 A에 대해 파워 이터레이션을 수행한다. 초기 벡터를 전부 1인 벡터 𝟙로 두고, 매 단계마다 x(t)=A·x(t‑1)/‖x(t‑1)‖₁을 계산한다. 이렇게 얻은 n×k 행렬 S_A의 각 행은 정점 i가 t번 이터레이션 동안 누적된 이웃 가중치를 나타낸다. 중요한 점은 𝟙를 초기값으로 사용하면 정점 순열을 적용한 경우 S_{PAPᵀ}=P·S_A가 되어 행 순서만 바뀌고, 행 자체의 값은 변하지 않으므로 정점 재배열에 대해 불변성을 갖는다(정리 1). 그 다음, S_A의 행들을 샘플로 보고 다변량 가우시안 분포 Ψ_A(x)=𝒩(x;μ_A,Σ_A)로 모델링한다. 여기서 μ_A는 행 평균, Σ_A는 행-행 공분산이다. 가우시안 형태를 선택한 이유는 (i) Bhattacharyya 커널이 닫힌 형태로 계산 가능해 효율적인 유사도 측정이 가능하고, (ii) 공분산이 행들 간의 상관관계를 포착해 그래프 구조를 풍부하게 표현하기 때문이다. 이 함수적 임베딩은 정점 순열에 대해 Ψ_{PAPᵀ}=Ψ_A가 되므로 그래프 동형성에 대한 충분조건을 제공한다(정리 2). 두 그래프 G₁, G₂에 대해 각각 Ψ_A와 Ψ_B를 구하고, Bhattacharyya 계수 K(A,B)=∫√{Ψ_A(x)Ψ_B(x)}dx 를 정의한다. 가우시안의 경우 이 적분은 K(A,B)=|Σ_A|^{-1/4}|Σ_B|^{-1/4}|Σ|^{1/2}·exp(½μᵀΣ^{-1}μ−¼μ_AᵀΣ_A^{-1}μ_A−¼μ_BᵀΣ_B^{-1}μ_B) 와 같은 닫힌 식으로 계산된다(식 4). Bhattacharyya 커널은 양의 반정정성을 갖기 때문에, 제안된 Power Kernel 역시 커널 매트릭스가 PSD임을 보장한다(정리 3). 시간 복잡도 분석에서는 파워 이터레이션 단계가 행렬-벡터 곱으로 O(|E|)이며, k번 반복 후 S_A를 구성하고 평균·공분산을 계산하는 비용이 O(nk)이다. 전체 커널 계산은 두 그래프에 대해 상수 시간 연산만 추가되므로 전체 복잡도는 O(k·|E|)이다. 이는 기존의 O(n³) 혹은 O(n²) 복잡도를 갖는 커널에 비해 크게 효율적이며, 대규모 그래프에도 적용 가능함을 의미한다. 실험에서는 MUTAG, PTC, ENZYMES, PROTEINS 네 개의 표준 벤치마크 데이터셋을 사용했다. k를 4~5 정도로 설정했으며, 특히 MUTAG, ENZYMES, PROTEINS에서 기존 최첨단 커널(Weisfeiler‑Lehman, Shortest‑Path, Graphlet 등)보다 높은 정확도를 기록했다. 이는 파워 이터레이션이 그래프 스펙트럼 전반을 포착하고, 가우시안 공분산이 그 구조적 차이를 효과적으로 반영하기 때문이다. 또한, 파워 이터레이션이 빠르게 수렴하므로 작은 k값만으로도 충분히 구별력을 확보한다. 논문의 주요 기여는 다음과 같다. (1) 그래프를 함수 공간의 객체로 변환하는 새로운 시각 제시, (2) 정점 순열 불변성을 보장하는 수학적 정리 제공, (3) Bhattacharyya 커널을 이용한 효율적 유사도 측정 방법 제안, (4) 선형 시간 복잡도로 대규모 그래프에 적용 가능한 실용적 커널 구현. 한계점으로는 가우시안 모델이 복잡한 비선형 구조를 충분히 표현할 수 있는지에 대한 검증이 부족하고, k값 선택이 그래프 종류에 따라 민감할 수 있다는 점이 있다. 향후 연구에서는 비가우시안 분포, 다중 스케일 파워 이터레이션, 그리고 레이블이 있는 그래프에 대한 확장 등을 탐색할 여지가 있다.

함수 임베딩 기반 그래프 커널

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기