컨텍스트 기반 심볼릭 회귀로 강인한 KAN 설계

본 논문은 과학적 머신러닝에서 블랙박스 모델을 해석 가능한 심볼릭 형태로 변환하는 ‘심볼릭 회귀’ 문제에 초점을 맞추고, 특히 Kolmogorov‑Arnold Networks(KAN)와 그 확장인 MultKAN을 대상으로 연산자 추출 과정의 불안정성을 체계적으로 분석한다. KAN은 각 엣지를 1차원 함수로 파라미터화하고, 이 함수를 합산해 다음 레이어의 출력을 만든다. 이러한 구조는 학습 후 엣지 함수를 사전 정의된 연산자(예: sin, exp, log, 다항식 등)로 교체함으로써 최종 네트워크를 명시적인 수식으로 표현할 수 있다는 장점을 제공한다. 그러나 기존 AutoSym 방식은 엣지별로 독립적인 곡선 피팅을 수행해 연산자를 선택한다. 이때 (1) 비선형 파라미터 최적화가 초기값에 민감해 동일 데이터에서도 서로 다른 연산자가 선택될 수 있고, (2) 여러 연산자가 거의 동일한 피팅 점수를 가질 경우 선택이 임의적이며, (3) 엣지 간 상호작용을 무시함으로써 초기 선택 오류가 네트워크 전반에 전파되어 최종 식의 정확도가 저하된다는 문제점이 있다. 이를 해결하기 위해 저자들은 ‘인‑컨텍스트’ 심볼릭 회귀라는 새로운 패러다임을 제안한다. 핵심 아이디어는 후보 연산자를 네트워크 전체에 적용해 짧은 fine‑tuning 후 전역 손실 감소량을 평가함으로써, 연산자 선택이 전체 모델 성능에 미치는 영향을 직접 반영하는 것이다. 이 아이디어를 구현한 첫 번째 방법은 Greedy in‑context Symbolic Regression(GSR)이다. GSR은 다음 절차를 반복한다: (1) 아직 심볼릭화되지 않은 엣지를 선택하고, (2) 해당 엣지에 라이브러리의 모든 후보 연산자를 순차적으로 삽입, (3) 각 후보에 대해 전체 네트워크를 몇 번의 역전파로 미세조정, (4) 손실 감소량이 가장 큰 연산자를 최종 선택, (5) 선택된 연산자를 고정하고 다음 엣지로 이동한다. 이 과정은 매칭 퍼슈트(Matching Pursuit) 알고리즘을 KAN에 적용한 형태이며, 전통적인 잔차 최소화 대신 전역 손실 개선을 기준으로 삼는다. 실험 결과, GSR은 AutoSym에 비해 연산자 선택의 일관성이 크게 향상되고, 테스트 MSE가 평균 99.8% 감소한다는 놀라운 성능을 보였다. 다만 후보마다 네트워크 재학습이 필요하므로 계산 비용이 크게 증가한다는 단점이 있다. 두 번째 방법인 Gated Matching Pursuit(GMP)는 GSR의 계산 비용 문제를 해결하기 위해 연산자 선택을 학습 단계에 통합한다. 각 엣지는 연산자 라이브러리 전체에 대한 스파스 게이트 벡터를 갖는다. 학습 과정에서 이 게이트는 연산자별 가중치를 연속적인 확률값으로 표현하고, Gumbel‑Softmax와 ℓ₀‑유사 정규화(예: L0 정규화, 스파스 프로젝션)를 이용해 점차 이산화된다. 즉, 네트워크는 동시에 모든 후보 연산자를 시험하고, 손실에 가장 크게 기여하는 연산자에 높은 게이트 값을 부여한다. 최적화가 수렴하면 각 엣지마다 가장 높은 게이트 값을 가진 연산자를 선택하고, 필요 시 짧은 GSR 단계로 추가 미세조정을 수행한다. GMP는 후보 평가를 네트워크 내부에서 병렬적으로 수행하므로 GSR 대비 5~10배 빠른 학습 속도를 달성한다. 정확도 면에서는 GSR에 근접하거나 약간 낮은 수준이지만, 전체 파이프라인의 효율성을 크게 개선한다. 실험은 SRBench의 Feynman 문제 집합을 사용했으며, 네 가지 주요 하이퍼파라미터(무작위 시드, 네트워크 폭, 정규화 강도, 프루닝 스케줄)를 OFAT 방식으로 변동시켰다. 평가 지표는 (1) 테스트 MSE, (2) 회복된 심볼릭 식의 구조적 일관성, (3) 연산자 선택의 재현성이다. 결과는 다음과 같다. AutoSym은 하이퍼파라미터 변동에 매우 민감해 동일 데이터에서도 서로 다른 연산자와 식을 출력했다. 반면 GSR과 GMP는 대부분의 변동 상황에서 동일한 연산자를 선택하고, 테스트 MSE가 크게 감소했다. 특히 GSR은 가장 큰 손실 개선을 보이며, GMP는 연산자 선택 과정이 학습에 내재화되어 계산 비용을 크게 절감했다. 또한, 두 방법 모두 회복된 식이 원래 물리 법칙과 높은 구조적 유사성을 보였으며, 이는 과학적 발견에 필요한 해석 가능성을 제공한다. 마지막으로, 저자들은 코드와 데이터, 하이퍼파라미터 스위프 정의, 시각화 유틸리티를 공개 저장소(https://github.com/Francesco-Sovrano/In-Context-Symbolic-Regression-KAN) 에 제공함으로써 재현성을 보장한다. 논문은 KAN 기반 심볼릭 회귀에서 인‑컨텍스트 연산자 선택이 견고성 및 효율성을 동시에 향상시킬 수 있음을 실증적으로 입증하고, 향후 과학적 머신러닝 모델의 해석 가능성을 높이는 중요한 방향성을 제시한다.

컨텍스트 기반 심볼릭 회귀로 강인한 KAN 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기