대규모 언어모델 사전지식을 활용한 전단계 인과 발견 프레임워크
📝 원문 정보
- Title: HOLOGRAPH: Active Causal Discovery via Sheaf-Theoretic Alignment of Large Language Model Priors
- ArXiv ID: 2512.24478
- 발행일: 2025-12-30
- 저자: Hyunjun Kim
📝 초록 (Abstract)
관측 데이터만으로 인과 구조를 복원하는 것은 식별성 한계 때문에 근본적으로 어려운 문제이다. 최근 대규모 언어모델(LLM)을 인과 사전지식의 원천으로 활용하려는 시도가 있었지만, 기존 방법은 이론적 근거가 부족한 휴리스틱에 의존한다. 본 연구는 LLM 기반 인과 발견을 전단사 이론(sheaf theory)으로 정형화한 HOLOGRAPH 프레임워크를 제안한다. 변수 부분집합을 기준으로 한 전단사(presheaf)를 정의하고, 각 부분집합에 대한 지역적 인과 믿음을 섹션(section)으로 표현한다. 전역적인 인과 구조는 전역 섹션의 존재와 동치이며, 전역 섹션이 존재하지 않을 경우 비소멸하는 전단사 코호몰로지가 위상학적 장애를 나타낸다. 숨은 교란 변수를 다루기 위해 Algebraic Latent Projection을 도입하고, 믿음 매니폴드 상에서 자연경사하강법(Natural Gradient Descent)으로 최적화를 수행한다. 50~100 변수 규모의 합성 및 실제 데이터 벤치마크에서 HOLOGRAPH는 견고한 수학적 기반을 제공하면서도 경쟁력 있는 성능을 보인다. 전단사 분석 결과, Identity·Transitivity·Gluing 공리는 10⁻⁶ 이하의 수치 오차로 만족하지만, 대규모 그래프에서는 Locality 공리가 위배되어 잠재 변수 투영에 비국소적 결합이 존재함을 시사한다. 코드와 구현은 공개 저장소에서 확인할 수 있다.💡 논문 핵심 해설 (Deep Analysis)
HOLOGRAPH 논문은 인과 구조 학습이라는 오래된 문제에 최신 인공지능 기술을 수학적으로 결합한 시도라 할 수 있다. 전통적인 인과 발견 방법은 조건부 독립성 검정이나 구조적 방정식 모델을 기반으로 하지만, 관측 데이터만으로는 동일한 마르코프 등가 클래스 내의 여러 그래프를 구분하기 어렵다. 이 한계를 극복하기 위해 연구자들은 외부 지식, 특히 인간이 만든 지식 그래프나 도메인 전문가의 의견을 사전확률로 도입해 왔다. 최근에는 LLM이 방대한 텍스트 코퍼스를 학습함으로써 “인과적 직관”을 내포하고 있다는 점에 주목해, LLM을 자동 사전지식 제공원으로 활용하려는 흐름이 생겼다. 그러나 기존 접근은 LLM이 제시한 인과 관계를 단순히 가중치나 제약조건으로 삽입하는 수준에 머물러, 왜 그런 삽입이 정당한지, 혹은 삽입된 정보가 전체 구조와 어떻게 일관되는지를 설명하지 못한다.HOLOGRAPH는 이러한 문제를 전단사 이론이라는 고차원 위상수학 도구로 해결한다. 변수 집합의 모든 부분집합을 객체로 하는 범주 위에 전단사(presheaf)를 정의하고, 각 객체에 대해 LLM이 제공한 “지역 인과 믿음”(예: X→Y, X⊥Z|W 등)을 섹션으로 매핑한다. 전단사의 제한 사상(restriction map)은 큰 부분집합에서 작은 부분집합으로 믿음을 투사할 때 일관성을 강제한다. 여기서 핵심은 전역 섹션(global section)의 존재 여부이다. 전역 섹션이 존재한다면, 모든 지역 믿음이 하나의 일관된 인과 그래프에 통합될 수 있음을 의미한다. 반대로 전역 섹션이 없을 경우, 전단사 코호몰로지(cohomology) 클래스가 비제로가 되며, 이는 “위상학적 장애”—즉, 서로 충돌하는 지역 믿음이 존재함을 수학적으로 증명한다.
숨은 교란 변수를 다루는 Algebraic Latent Projection은 기존 선형 구조 방정식 모델에서 잠재 변수를 명시적으로 추가하는 대신, 전단사 섹션 공간을 확장해 잠재 변수의 효과를 대수적으로 투영한다. 이 과정은 전단사의 코호몰로지를 보존하면서도, 관측 변수 사이의 비직관적 의존성을 설명한다. 최적화 단계에서는 믿음 매니폴드가 리만 다양체 구조를 가진다고 가정하고, 자연경사(Natural Gradient)를 적용해 파라미터 공간을 효율적으로 탐색한다. 이는 일반적인 확률적 경사하강법보다 기하학적 정보를 활용해 수렴 속도를 높이고, 지역 최소점에 빠질 위험을 감소시킨다.
실험 결과는 두 가지 차원에서 의미가 있다. 첫째, 50~100 변수 규모의 복잡한 그래프에서도 HOLOGRAPH가 기존 방법들과 동등하거나 더 높은 정확도를 달성했으며, 이는 전단사 기반의 일관성 검증이 실제 인과 구조 회복에 기여함을 보여준다. 둘째, 전단사 공리 검증에서 Identity, Transitivity, Gluing은 수치적으로 10⁻⁶ 이하의 오차로 만족했지만, Locality 공리는 대규모 그래프에서 위배되었다는 점이다. 이는 LLM이 제공하는 지역 믿음이 서로 독립적으로 정의되지 않고, 잠재 변수 투영 과정에서 비국소적 상호작용이 발생한다는 중요한 통찰을 제공한다. 이러한 발견은 앞으로 LLM을 인과 사전지식으로 활용할 때, 단순히 “지역” 정보를 수집하는 것이 아니라, 그 정보들이 전역 구조와 어떻게 결합되는지를 전단사적 관점에서 검증해야 함을 시사한다.
전반적으로 HOLOGRAPH는 인과 발견에 대한 이론적 토대를 강화하면서, 최신 LLM 기술을 수학적으로 정당화하는 길을 열었다. 향후 연구는 전단사 코호몰로지를 이용한 자동 교정 메커니즘, 더 복잡한 비선형 잠재 변수 모델, 그리고 다양한 도메인(생물학, 사회과학 등)에서의 실증 검증으로 확장될 수 있다.