LLM 작업 계획 검증을 위한 그래프 신경망 기반 검증기
본 논문은 대형 언어 모델(LLM)이 생성한 작업 계획의 구조적 오류를 탐지하고 교정하기 위해, 계획을 속성화된 방향 그래프로 변환한 뒤 그래프 신경망(GNN)으로 평가·진단하는 GNNVerifier를 제안한다. 그래프 수준의 타당성 점수와 노드·엣지 수준의 위험 점수를 출력하고, 이를 기반으로 LLM이 국소적으로 수정하도록 유도한다. 다양한 데이터셋과 플래너에 대한 실험에서 기존 LLM 기반 검증기 대비 플랜 품질이 크게 향상됨을 보였다.
저자: Yu Hao, Qiuyu Wang, Cheng Yang
**1. 서론 및 배경**
대형 언어 모델(LLM)은 자연어 이해와 복합 추론에서 뛰어난 성능을 보이며, 이를 기반으로 한 자동 에이전트가 다양한 실세계 작업을 수행하도록 설계되고 있다. 이러한 에이전트의 핵심 모듈인 작업 계획(task planning)은 사용자의 복합 질의를 일련의 구체적이고 실행 가능한 서브태스크와 도구 호출 체인으로 분해한다. 기존 LLM 기반 플래너는 프롬프트에 도구 설명, 제약 규칙, 예시 등을 삽입해 인-컨텍스트 학습으로 플랜을 생성한다. 그러나 컨텍스트가 길어질수록 주의가 분산되고, LLM은 종종 ‘플루언트하지만 실행 불가능한’ 플랜을 만들어낸다. 이를 보완하기 위해 플랜 검증기(plan verifier)가 도입됐지만, 대부분이 LLM 자체를 검증기로 활용해 추가 프롬프트를 통해 플랜을 리뷰하거나 자기 반성을 유도한다. 이러한 방식은 (i) 설득력 있는 서술에 현혹되기 쉽고, (ii) 단계 간 구조적 관계(예: 타입 불일치, 중간 단계 누락, 의존성 깨짐)를 정확히 파악하기 어렵다는 한계가 있다.
**2. 연구 목표**
본 연구는 위 한계를 극복하고, 플랜의 구조적 일관성을 정량적으로 평가·진단할 수 있는 그래프 기반 검증기(GNNVerifier)를 제안한다. 핵심 아이디어는 플랜을 ‘속성화된 방향 그래프’로 변환하고, 그래프 신경망(GNN)으로 구조적 타당성을 학습·예측하는 것이다. 검증기는 (a) 그래프‑레벨 플랜 타당성 점수, (b) 노드‑레벨 위험 점수(툴 선택 오류 가능성), (c) 엣지‑레벨 위험 점수(연결 불안정성)를 동시에 출력한다. 이러한 점수는 LLM에게 국소적인 플랜 수정(local edit)을 지시하는 피드백으로 활용된다.
**3. 방법론**
***3.1 플랜 그래프 구성***
- **노드 정의**: 각 서브태스크는 (툴, 단계 텍스트) 쌍으로 표현되며, 가상 시작 노드(Start)를 추가해 0‑입력 노드를 연결한다.
- **엣지 정의**: 방향성 엣지는 실행 순서와 의존성 제약을 동시에 인코딩한다.
- **속성 부여**:
- *툴 의미*와 *단계 의미*를 사전 훈련된 인코더(예: Sentence‑BERT)로 임베딩.
- 툴의 입·출력 타입을 멀티‑핫 벡터로 표현.
- 단계‑툴 정렬 점수 Δ_i를 학습된 MLP(g)로 계산해, 유사 툴 간 구분력을 강화한다.
- 엣지 속성은 (i) 타입 호환성 점수, (ii) 길이‑2 동시 등장 빈도(log(1+f₂)), (iii) 길이‑3·4 경로 빈도(log(1+fₙ)) 로 구성한다.
***3.2 그래프 신경망 기반 검증***
- **메시지 패싱**: 각 레이어에서 들어오는 이웃과 나가는 이웃을 별도 MLP(φ_in, φ_out)로 집계하고, 요청 문장 r의 임베딩 e(r) 를 컨텍스트로 포함한다.
- **노드 업데이트**: h^{ℓ+1}_v = MLP^{ℓ}((1+ε^{ℓ})·h^{ℓ}_v + m^{ℓ}_{v,in} + m^{ℓ}_{v,out})
- **읽어내기(Readout)**: 최종 노드 표현을 풀링해 그래프 표현 h_G 를 얻는다.
- **예측 헤드**:
- 그래프‑레벨 스코어 S_r = σ(f_g(h_G))
- 노드‑레벨 위험 P_V(v) = σ(f_v(h_v))
- 엣지‑레벨 위험 P_E(u,v) = σ(f_e(h_u, h_v, x_{uv}))
***3.3 자동 라벨링을 위한 퍼터베이션***
정답 플랜 그래프가 제한적인 상황을 해결하기 위해, 저자들은 다음과 같은 변형을 적용한다.
- **툴 교체**: 올바른 툴을 유사하지만 다른 툴로 교체.
- **툴 삽입/삭제**: 중간 단계 누락 혹은 불필요한 단계 추가.
- **순서 뒤바꿈**: 의존성을 위반하도록 순서를 바꿈.
각 변형마다 노드·엣지 위험 라벨을 자동으로 부여하고, 그래프‑레벨 라벨(정상/비정상)을 지정한다. 이렇게 생성된 수십만 개의 그래프가 GNN 학습에 사용된다.
***3.4 검증‑유도 국소 교정***
검증 결과 S_r 가 사전 정의된 임계값 이하이면, 위험 점수가 높은 노드·엣지를 추출한다. LLM에게 “노드 v에서 툴을 t' 로 교체” 혹은 “노드 u와 v 사이에 중간 단계 w 삽입”과 같은 구체적인 편집 명령을 프롬프트한다. LLM은 해당 명령을 수행해 새로운 플랜 그래프 G'_r 를 생성하고, 다시 검증기에 입력해 반복한다. 이 과정은 플랜 품질이 만족스러운 수준에 도달할 때까지 진행된다.
**4. 실험 및 결과**
- **데이터셋**: Tool-Augmented QA, Office Workflow Automation, Multimodal Content Generation, 그리고 복합 도메인 플랜 데이터 4종.
- **베이스라인**: 기존 LLM‑기반 검증기(프롬프트 기반 self‑reflection, Veriplan 등)와 구조적 검증을 시도한 GNN4Plan 변형.
- **평가지표**: 노드 정확도, 엣지 정확도, 그래프 수준 정확도, 최종 플랜 성공률.
- **주요 결과**: GNNVerifier는 노드 정확도 2.13%, 엣지 정확도 9.22%, 그래프 정확도 15.96%의 상대적 향상을 달성했다. 특히 타입 불일치와 누락된 중간 단계 탐지율이 90% 이상으로, 기존 LLM 검증기 대비 2배 이상 높은 재현율을 보였다. 검증‑유도 교정 단계에서 전체 플랜 성공률이 평균 12% 상승했으며, LLM 호출 횟수는 약 30% 감소했다(불필요한 재시도 감소).
**5. 논의 및 한계**
- **장점**: 구조적 정보를 명시적으로 활용해 LLM의 ‘흐름 파악’ 한계를 보완, 자동 라벨링으로 대규모 학습 데이터 확보, 검증‑피드백 루프를 통한 효율적 플랜 개선.
- **제한점**: (i) 툴 설명이 부족하거나 다중 모달(이미지, 코드)일 경우 임베딩 품질 저하, (ii) 수백 단계 플랜에 대해 GNN 메모리·시간 복잡도가 급증, (iii) 현재는 단일 요청에 대한 플랜만 다루며, 다중 사용자·다중 목표 상황은 미탐색.
- **미래 연구**: 계층적 그래프 요약·축소, 멀티모달 툴 설명 통합, 강화학습 기반 검증‑교정 정책 학습, 그리고 실시간 에이전트 시스템에의 적용 검증.
**6. 결론**
GNNVerifier는 LLM이 생성한 작업 계획을 그래프 형태로 변환하고, 그래프 신경망을 통해 구조적 타당성을 정량화함으로써 기존 LLM 기반 검증기의 한계를 극복한다. 자동 퍼터베이션을 통한 대규모 라벨링과 위험 점수를 활용한 국소 교정 메커니즘을 결합해, 다양한 도메인·플래너·LLM 조합에서 플랜 품질을 현저히 향상시켰다. 이 연구는 LLM 기반 자동 에이전트의 신뢰성을 강화하는 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기