GUI‑리브라: 행동 인식 학습과 부분 검증 강화 RL로 원시 GUI 에이전트 성능 혁신
GUI‑리브라는 고품질 행동 정렬 추론 데이터를 81K 규모로 구축·필터링하고, 행동‑인식 SFT와 KL‑제한 보수적 RL을 결합한 학습 레시피를 제시한다. 토큰 가중치 재조정으로 추론‑그라운딩 간 충돌을 완화하고, 부분 검증 상황에서 정책 변화를 제한·성공‑적응형 그래디언트 스케일링을 도입해 오프라인 지표와 온라인 성공률의 정합성을 크게 높인다. 웹·모바일 벤치마크 전반에 걸쳐 단계별 정확도와 최종 과제 완수율이 현저히 개선되었다.
저자: Rui Yang, Qianhui Wu, Zhaoyang Wang
본 논문은 오픈‑소스 네이티브 GUI 에이전트가 장기적인 탐색 과제에서 폐쇄형 시스템에 뒤처지는 원인을 두 가지로 규정한다. 첫 번째는 행동에 정렬된 고품질 추론 데이터가 부족하다는 점이며, 두 번째는 기존의 사후‑학습 파이프라인이 GUI 에이전트 고유의 특성을 충분히 반영하지 못한다는 점이다. 기존 데이터셋은 짧은 추론, 잡음이 많은 행동 라벨, 혹은 부분적인 그라운딩 정보만을 제공해, 에이전트가 복합적인 의도와 구체적인 실행을 동시에 학습하기에 부적합했다. 또한, 표준 SFT는 체인‑오브‑쓰(Chain‑of‑Thought) 토큰이 손실 함수에서 과도하게 비중을 차지해, 모델이 추론에 집중하면서 실제 UI 요소를 정확히 클릭하거나 입력하는 그라운딩 능력이 저하되는 현상을 보였다.
이를 해결하기 위해 저자들은 세 가지 핵심 기여를 제시한다. 첫째, 대규모 데이터 구축 파이프라인을 설계하여 기존 오픈‑소스 트래젝터리에서 자동으로 추론 텍스트를 생성하고, 다중 단계 검증을 통해 81 000개의 고품질 (instruction, reasoning, action) 삼중항을 선별·정제하였다. 이 데이터는 행동과 추론이 명확히 정렬된 형태이며, 다양한 웹·모바일 환경을 포괄한다. 둘째, 행동‑인식 SFT(Action‑aware Supervised Fine‑Tuning, ASFT)를 도입하였다. ASFT는 “추론‑후‑행동” 샘플과 “직접‑행동” 샘플을 혼합 학습하고, 행동·그라운딩 토큰에 높은 가중치를 부여해 손실 함수에서 이 토큰들의 비중을 증대한다. 이를 통해 긴 추론이 그라운딩 정확도를 방해하는 현상을 완화하고, 모델이 추론과 실행을 동시에 최적화하도록 유도한다. 셋째, 강화학습 단계에서는 GUI 특유의 “부분 검증(partial verifiability)” 문제를 고려한다. 한 상태에서 여러 올바른 행동이 존재하지만, 기존 단계별 RL은 시연된 단일 행동만을 정답으로 간주해 잘못된 부정 신호를 생성한다. 논문은 KL‑다이버전스 정규화를 보수적으로 유지하는 것이 정책 변화 폭을 제한하고, 보상 모호성을 완화해 오프라인 단계별 정확도와 온라인 성공률 사이의 정합성을 크게 향상시킨다는 이론적·실험적 근거를 제시한다. 추가로, 성공‑적응형 그래디언트 스케일링(success‑adaptive negative gradient scaling)을 도입해, 에이전트가 성공한 경우에만 부정적인 그래디언트를 크게 적용하고, 실패 시에는 그 크기를 감소시켜 학습 안정성을 높였다.
실험은 웹과 모바일 두 영역의 대표적인 벤치마크(AndroidWorld, Online‑Mind2Web, WebArena‑Lite‑v2)를 대상으로 수행되었다. GUI‑리브라‑4B와 GUI‑리브라‑8B 모델은 각각 기본 모델 대비 AndroidWorld에서 +15.6 %·+12.2 %, Online‑Mind2Web에서 +4.0 %·+8.7 %, WebArena‑Lite‑v2에서 +12.5 %·+11.3 %의 과제 성공률 향상을 기록했다. 단계별 정확도 역시 전반적으로 상승했으며, 특히 행동‑인식 SFT와 KL‑제한 RL을 동시에 적용했을 때 가장 큰 시너지 효과가 관찰되었다. Ablation 연구를 통해 토큰 재가중치 비율, 행동‑후‑추론 혼합 비율, KL‑트러스트 리전 크기, 성공‑적응형 스케일링 파라미터 각각이 성능에 미치는 영향을 정량화하였다.
결론적으로, 논문은 (1) 고품질 행동‑정렬 추론 데이터가 모델 성능 향상의 핵심임을, (2) 추론과 그라운딩 사이의 손실 균형을 맞추는 행동‑인식 SFT가 장기 탐색 과제에서 효과적임을, (3) 부분 검증 환경에서 KL‑제한 보수적 RL과 성공‑적응형 스케일링이 오프라인‑온라인 정합성을 크게 개선함을 입증한다. 또한, 데이터와 학습 레시피 모두 오픈‑소스로 공개함으로써, 향후 연구자들이 비용 부담 없이 고성능 GUI 에이전트를 재현·확장할 수 있는 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기