에이전틱 SQL을 위한 컬럼‑셋 매칭과 궤적 집계 기반 보상 설계
본 논문은 멀티턴 Text‑to‑SQL 에이전트를 위한 두 단계 보상 체계인 컬럼‑셋 매칭 보상(CSMR)과 집계 궤적 보상(ATR)을 제안한다. CSMR은 각 턴에서 실행 결과의 컬럼 값 집합을 비교해 0‑1 이진 보상을
저자: Long Li, Zhijian Zhou, Jiangxuan Long
본 연구는 기존 Text‑to‑SQL 연구가 대부분 단일턴 생성에 머물러 있어, 실제 데이터 분석가가 수행하는 반복적인 질의·수정 과정을 반영하지 못한다는 문제점을 지적한다. 이러한 제약은 멀티턴 에이전트가 최종 결과에만 보상을 받는 ‘all‑or‑nothing’ 방식으로 인해 신용 할당이 모호해지고, 단계별 피드백이 이진(0/1)으로만 제공돼 학습 효율이 크게 저하되는 두 가지 핵심 과제로 귀결된다.
이를 해결하기 위해 저자들은 Agentic SQL이라는 프레임워크를 제안한다. 프레임워크는 (1) 멀티턴 인터랙션을 지원하는 환경을 정의하고, (2) 두 단계 보상 메커니즘인 Column‑Set Matching Reward(CSMR)와 Aggregated Trajectory Reward(ATR)를 도입한다.
CSMR은 각 턴에서 실행된 SQL 쿼리의 결과 테이블을 골드 테이블과 비교한다. 기존 방식은 행 전체가 일치해야만 1점을 주었지만, CSMR은 행 순서와 중복을 무시하고 컬럼별 고유 값 집합을 추출한다. 골드와 예측 결과의 컬럼 집합 매칭 개수를 전체 컬럼 수의 곱으로 정규화하고, 완전 매치 시 1.0, 부분 매치 시 α(예:0.8) 이하의 점수를 부여한다. 이렇게 하면 부분적으로 올바른 결과에서도 의미 있는 보상이 제공되어, 보상 희소성을 크게 완화한다.
ATR은 전체 궤적을 하나의 스칼라 보상으로 요약한다. 비대칭 전이 행렬 M을 정의해 Low→High 전이는 +1, High→Low 전이는 –1(또는 –0.5) 등으로 가중치를 부여한다. 전이 함수 Ψ는 현재와 이전 단계의 CSMR 차이 ΔR_t 를 절댓값으로 스케일링하고, ΔR_t≈0일 경우 임계값 τ에 따라 상태를 유지한다. 이 설계는 에너지 소모 연산자로 작동해, Lyapunov 함수 V(s)=1‑Φ(s) (Φ는 CSMR) 가 단조 감소하도록 보장한다. 논문은 비대칭 M이 사이클을 억제하고, 정책이 에너지‑감소 경로를 따라 수렴함을 수학적으로 증명한다(부록 B). 또한, 양자화된 피드백 τ를 통해 고주파 노이즈를 차단하고, 의미 있는 의미 전이 시에만 정책 업데이트가 일어나도록 설계하였다.
학습 단계에서는 GRPO(Generalized PPO)와 토큰 마스킹을 결합한다. 그룹 내 여러 응답을 샘플링하고, 각 응답에 대해 ATR을 정규화한 어드밴티지를 계산한다. 마스크 M_i,t는 reasoning 토큰에만 보상을 적용해, 실행 토큰이 학습에 방해되지 않도록 한다. 최종 손실은 클리핑된 PPO 목표와 마스크된 어드밴티지를 곱한 형태이며, 전체 토큰 수준에서 역전파한다.
실험은 두 가지 설정에서 진행되었다. 첫 번째는 Qwen2.5‑7B‑Instruct 모델을 직접 RL 훈련시킨 경우이며, 두 번째는 OmniSQL‑7B 모델에 사전 포맷‑6k 파인튜닝 후 RL을 적용한 경우이다. 평가 데이터셋은 BIRD‑Dev, Spider, 그리고 기업용 복잡도 높은 Spider‑2.0을 사용하였다. 결과는 다음과 같다.
- Qwen2.5‑7B‑Instruct: 기존 0/1 보상 GRPO 대비 BIRD에서 +5.7%, Spider에서 +3.7% 향상.
- OmniSQL‑7B: BIRD에서 +2.5%, Spider에서 +1.5% 향상, 또한 Arctic‑Text2SQL‑R1‑7B(동일 모델 기반)보다 우수.
- Spider‑2.0: 멀티턴 복잡 작업에서도 기존 방법보다 높은 정확도와 안정성을 보이며, 사이클 현상이 현저히 감소함을 확인.
추가적인 ablation 연구에서는 ATR을 사용하지 않은 Step‑wise 업데이트와 비교해, ATR이 보상 변동성을 줄이고 학습 안정성을 크게 높인다는 것을 입증하였다. 또한, α 값을 조정한 CSMR의 민감도 분석을 통해, 완전 매치와 부분 매치 사이의 구분을 적절히 유지하면서도 과도한 보상 해킹을 방지할 수 있음을 보였다.
결론적으로, SQL‑ASTRA는 (1) 컬럼‑셋 매칭을 통한 단계별 밀집 보상, (2) 비대칭 전이 행렬 기반 에너지‑소모 궤적 보상, (3) Lyapunov 안정성 이론을 통한 정책 수렴 보장을 결합함으로써, 멀티턴 Text‑to‑SQL 에이전트 학습의 핵심 병목을 효과적으로 해소한다. 제안된 방법은 모델 규모와 사전 학습 정도에 크게 의존하지 않으며, 향후 복잡한 데이터베이스 질의, 데이터 탐색, 그리고 다른 도메인(예: 코드 생성, 논문 검색)에도 일반화 가능성이 높다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기