중간 구조의 신뢰성, 인과관계로 검증하다
이 논문은 스키마 기반 추론 파이프라인에서 LLM이 생성한 중간 구조(루브릭·체크리스트·쿼리)가 최종 결정에 인과적으로 작용하는지를 평가한다. 결정이 중간 구조의 결정적 함수에 의해 계산되는 세 가지 벤치마크와 여덟 모델을 대상으로, 중간 구조를 인위적으로 편집한 후 모델이 예측을 바꾸는지를 측정한다. 결과는 모델이 자체 중간 구조와는 일관성을 보이지만, 편집 후에는 60 %까지 예측을 업데이트하지 않아 중간 구조가 실제 인과 매개체가 아니라 …
저자: Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov
본 논문은 스키마‑가이드 추론(SGR) 파이프라인에서 대형 언어 모델(LLM)이 생성하는 중간 구조가 최종 결정에 실제 인과적 영향을 미치는지를 체계적으로 검증한다. 기존 연구는 자유형 체인‑오브‑생각(CoT) 추론의 신뢰성을 주로 질적·정성적으로 분석했으며, 중간 단계가 모델의 내부 지식에 의해 우회될 가능성을 지적했지만, 구조화된 매개 변수를 이용한 정량적 인과 실험은 부족했다. 이를 보완하기 위해 저자들은 다음과 같은 연구 설계를 제시한다.
1. **인과적 프레임워크 정의**
입력 X, 중간 구조 M, 최종 출력 Y 사이에 front‑door 구조를 가정한다. M은 X→Y 경로를 완전히 매개하며, Y는 결정론적 함수 C(M)으로 계산된다. 따라서 M을 인위적으로 변형(M⋆)했을 때, C(M⋆)가 새로운 정답을 제공하므로, 모델이 M⋆를 조건으로 재생성한 Y⋆가 C(M⋆)와 일치하면 인과적 매개가 성립한다.
2. **벤치마크와 데이터 선택**
- **RiceChem**: 학생 답안을 평가하는 루브릭(각 항목에 True/False와 가중치)으로, 점수는 항목 점수의 가중합으로 결정된다. 루브릭 항목을 뒤집으면 점수가 확정적으로 변한다.
- **AVeRiTeC**: 사실 검증 작업으로, 각 주장에 대해 이진 서브 질문들의 답변이 M을 구성한다. 서브 답변을 뒤집으면 최종 사실 여부가 반전된다.
- **TabFact**: 테이블 기반 사실 검증으로, 구조화된 쿼리(컬럼·연산 선택)가 M이며, 쿼리 결과에 따라 ‘Entailed’ 혹은 ‘Refuted’ 라벨이 결정된다. 컬럼·연산을 교체하면 라벨이 바뀐다.
3. **모델 및 실험 설정**
Qwen‑3(1.7 B, 4 B, 8 B), Falcon‑3(3 B, 7 B), LLaMA‑3(3.1 B, 3.2 B), Gemma‑2(2 B) 등 8개의 instruction‑tuned 모델을 사용했다. 모든 실험은 온도 0, 결정적 디코딩으로 수행했으며, 프롬프트는 “입력과 함께 중간 구조와 최종 결정을 출력하라”는 형식으로 구성했다.
4. **개입 프로토콜**
- **Correction (COR)**: 모델이 만든 M̂이 골드와 다를 경우, 골드 M⋆로 교체하고 Y⋆를 재요청한다.
- **Counterfactual (CNF)**: 모델이 만든 올바른 M̂을 고의로 변형해 C(M⋆)가 달라지도록 만든 뒤 Y⋆를 재요청한다.
두 경우 모두 (a) **ID faithfulness**: ˆY와 C(ˆM) 일치 여부, (b) **Strong faithfulness**: 개입 후 ˆY⋆와 C(M⋆) 일치 여부를 측정한다.
5. **주요 결과**
- **일관성 차이**: 모든 모델‑데이터셋 조합에서 F_ID > F_Strong이며, Δ = F_ID – F_Strong이 0.08~0.36 사이로 양의 값을 보였다. 이는 모델이 자체 중간 구조와는 일관성을 유지하지만, 구조를 바꾸면 예측을 업데이트하지 못한다는 것을 의미한다.
- **데이터셋별 특성**:
*RiceChem*에서는 평균 F_ID≈0.55, F_Strong≈0.34로 중간 정도의 인과 의존성을 보였으며, 모델 규모와는 무관하게 Δ가 크게 변동했다.
*AVeRiTeC*는 F_ID≈0.74에 비해 F_Strong≈0.27로 큰 격차(Δ≈0.48)를 보여, 중간 구조가 거의 무시되는 경우가 많았다.
*TabFact*은 전체적으로 낮은 F_ID≈0.24, F_Strong≈0.14를 기록했으며, 이는 기본 일관성 자체가 부족함을 나타낸다.
- **대칭성 여부**: Counterfactual 개입에 대한 성공률이 Correction 개입보다 일관적으로 높았다. 즉, 모델은 “잘못된” 중간 구조를 교정받을 때보다, 의도적으로 만든 반사실 변형에 더 민감하게 반응한다. 이는 인과적 매개성의 방향성 비대칭성을 시사한다.
- **도구 활용 효과**: 최종 결정 C를 외부 도구(예: 루브릭 점수 집계기)로 분리하면 Strong faithfulness가 크게 상승했다. 반면, 프롬프트에 “중간 구조를 우선 고려하라”는 지시를 추가해도 Δ 감소 효과는 미미했다.
6. **시사점 및 한계**
- 현재 SGR 파이프라인은 중간 구조를 인간이 검토·수정 가능한 형태로 제공하지만, 모델이 이를 실제 연산 단계로 활용하지 않을 위험이 있다. 특히 고위험 분야에서 전문가가 중간 구조를 수정해도 모델이 이를 반영하지 않으면 시스템 신뢰성이 크게 저하될 수 있다.
- 모델 규모·패밀리만으로는 인과적 매개성 향상을 설명하기 어렵다. 데이터 특성(루브릭 복잡도, 질문 수 등)과 모델이 중간 구조를 “읽는” 방식이 더 큰 영향을 미치는 것으로 보인다.
- 향후 연구는 (1) 중간 구조와 최종 연산을 명시적으로 분리하는 도구 연동 설계, (2) 모델이 M을 실제 연산에 사용하도록 강제하는 학습 목표(예: 구조‑조건 손실) 도입, (3) 인과적 매개성을 정량화하는 새로운 평가 지표(예: do‑intervention 정확도) 개발 등에 초점을 맞춰야 한다.
7. **결론**
논문은 “중간 구조 = 설명 가능한 추론”이라는 가정이 반드시 인과적 신뢰성을 보장하지 않음을 실험적으로 입증했다. 모델이 자체 중간 구조와는 일관성을 유지하더라도, 구조를 편집했을 때 예측을 바꾸지 못하는 경우가 빈번하다. 외부 도구를 활용해 결정 과정을 명시적으로 분리하면 이 문제는 크게 완화된다. 따라서 실무에서 SGR 파이프라인을 도입할 때는 중간 구조를 단순히 “시각화”가 아니라, 실제 연산 흐름에 통합하는 설계가 필수적이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기