신뢰할 수 있는 텍스트투SQL 탐색

본 논문은 텍스트‑투‑SQL 파싱이 실제 기업 데이터베이스에서 직면하는 “Unknown Schema” 문제를 정의하고, 이를 해결하기 위한 새로운 프레임워크 TRUST‑SQL을 제안한다. 기존 연구는 전체 스키마를 입력에 미리 주입하는 Full Schema Assumption을 전제로 하여, 수백 개의 테이블과 컬럼을 가진 대규모 데이터베이스에서는 컨텍스트 길이 제한과 메타데이터 노이즈 때문에 적용이 어려웠다. TRUST‑SQL은 에이전트를 부분관측 마코프 결정 과정(POMDP)으로 모델링하고, “탐색‑제안‑생성‑확인” 네 단계 프로토콜을 도입한다. 첫 단계인 Explore에서는 에이전트가 도구 호출을 통해 메타데이터를 질의한다. 두 번째 단계인 Propose는 필수적인 인지적 체크포인트로, 에이전트가 현재까지 검증된 스키마 Kₜₚ₍ₚₒₚₒₛₑ를 선언한다. 이 선언은 이후 단계에서만 사용 가능하도록 강제함으로써, 파라미터 기반의 허위 스키마 생성(hallucination)을 크게 억제한다. 세 번째 단계인 Generate에서는 검증된 스키마에 기반해 SQL을 작성하고, 실행 결과를 관찰한다. 마지막 Confirm 단계에서는 최종 SQL을 제출하고, 실행 성공 여부에 따라 최종 보상이 부여된다. 핵심 학습 전략은 Dual‑Track GRPO이다. 기존 GRPO는 전체 인터랙션에 대해 하나의 보상만을 사용해 토큰 수준 어드밴티지를 계산했지만, 이는 탐색 단계와 생성 단계가 동일한 신호에 혼재돼 신용 할당이 모호해지는 문제를 야기한다. TRUST‑SQL은 트랙을 Schema Track(탐색 단계 종료 시점까지)와 Full Track(전체 인터랙션)으로 분리하고, 각각 R_schema와 R_exec+R_fmt이라는 독립적인 보상을 할당한다. 각 트랙 내에서 그룹 평균과 표준편차를 이용해 정규화된 어드밴티지를 계산하고, 토큰 마스크를 적용해 해당 트랙에 속한 토큰에만 어드밴티지를 전파한다. 이렇게 하면 스키마 탐색 토큰은 스키마 보상만, SQL 생성 토큰은 실행·포맷 보상만을 받아 학습 신호가 섞이지 않는다. 손실 함수는 L(θ)=L_full(θ)+λ·L_schema(θ) 형태로 두 트랙을 동시에 최적화한다. 실험에서는 Qwen3‑4B와 Qwen3‑8B를 베이스 모델로 사용했으며, SFT(슈퍼바이즈드 파인튜닝)와 Dual‑Track GRPO를 순차적으로 적용했다. BIRD‑Dev, Spider‑T, 그리고 기업 내부 대규모 스키마 데이터셋 등 5개의 벤치마크에서 기존 4B/8B 모델 대비 각각 평균 30.6%·16.6%의 절대 정확도 향상을 달성했다. 특히 사전 스키마를 주입한 OmniSQL과 같은 강력한 베이스라인과도 동등하거나 더 높은 성능을 보였으며, 스키마 탐색 정확도는 85% 이상, hallucination 비율은 3% 이하로 크게 감소했다. 하지만 복잡한 논리적 질문에 대한 SQL 논리 오류는 여전히 존재한다는 한계가 있다. 또한 현재 메타데이터 조회가 단순 키‑값 형태에 국한돼 있어, 외래키·제약조건 등 복합 메타데이터 탐색에는 추가 도구가 필요하다. 향후 연구에서는 그래프 기반 정책 네트워크, 메타‑RL, 제한된 조회 횟수 내에서 최적 탐색 전략을 학습하는 비용 효율적인 메커니즘 등을 탐색할 계획이다. 결론적으로 TRUST‑SQL은 사전 스키마 없이도 신뢰할 수 있는 텍스트‑투‑SQL 파싱을 가능하게 하는 최초의 프레임워크이며, Dual‑Track GRPO를 통한 정교한 신용 할당이 성능 향상의 핵심 요인임을 입증한다.

신뢰할 수 있는 텍스트투SQL 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기