동적 이중입자 스킬 뱅크로 에이전트 강화학습 혁신

본 논문은 에이전트 강화학습(Agentic RL)에서 재사용 가능한 경험을 효율적으로 활용하기 위한 새로운 스킬 뱅크 구조인 D2Skill을 제안한다. 기존 연구들은 주로 전체 트래젝터리를 하나의 고수준 스킬로 추출해 정책에 삽입했지만, 이는 세밀한 단계 오류를 교정하기에 부족하고, 훈련이 진행될수록 스킬 뱅크가 무한히 커져 검색·관리 비용이 급증한다는 문제점이 있었다. D2Skill은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫 번째는 ‘이중 입자(dual‑granularity)’ 스킬 모델링이다. 작업 스킬(task skill)은 특정 태스크(g)에 대한 고수준 계획·탐색을 제공하고, 단계 스킬(step skill)은 (g, observation) 쌍을 키로 하여 현재 관찰에 맞는 구체적인 행동 지침을 제공한다. 이렇게 두 입자를 동시에 유지함으로써 에이전트는 장기 목표와 순간적인 의사결정을 모두 보조받을 수 있다. 두 번째는 ‘동적 유지관리(dynamic maintenance)’ 메커니즘이다. 훈련 중 동일 정책 하에서 스킬 삽입 롤아웃과 비삽입 롤아웃을 동시에 수집한다. 두 그룹의 성공률 차이를 Δ_task으로, 개별 트래젝터리 성공 여부와 베이스 평균 성공률 차이를 c_i로 정의하고, 이를 각각 작업 스킬과 단계 스킬의 유틸리티(u_m) 업데이트에 사용한다. 유틸리티는 지수 이동 평균으로 지속 업데이트되며, 이는 스킬의 실제 기여도를 실시간으로 반영한다. 스킬 생성은 ‘반성(reflection)’ 단계에서 이루어진다. 특정 태스크 그룹의 스킬 삽입 성공률이 사전 정의된 임계값 τ_ref 이하이면, 실패 트래젝터리와(가능하면) 성공 트래젝터리를 LLM에 전달해 새로운 작업 스킬과 단계 스킬을 각각 하나씩 생성한다. 생성된 스킬은 키와 함께 정규화·중복 제거 과정을 거쳐 뱅크에 삽입된다. 검색 단계에서는 두 단계로 구성된다. 1차 후보는 키와 현재 쿼리 사이의 코사인 유사도로 필터링하고, 최소 유사도 τ_sim을 만족하는 스킬만 남긴다. 2차 단계에서는 유사도와 유틸리티·탐색 보너스를 결합한 점수(score) = α·sim + (1‑α)·(u + η·log(1+N_r)/(1+n_m)) 로 재정렬해 상위 k개 스킬을 정책에 주입한다. 여기서 n_m은 해당 스킬의 호출 횟수이며, UCB 스타일 보너스가 낮은 호출 횟수 스킬의 탐색을 촉진한다. 뱅크 관리 측면에서는 일정 주기마다 용량 N_max을 초과한 경우, 유틸리티와 탐색 보너스를 결합한 ‘퇴출 점수(evict)’를 기준으로 가장 낮은 스킬을 삭제한다. 최근에 생성된 스킬은 일정 기간(T_prot) 동안 보호돼 충분히 평가될 시간을 확보한다. 실험은 두 도메인, ALFWorld와 WebShop에서 Qwen2.5‑7B‑Instruct와 Qwen3‑4B‑Instruct‑2507을 베이스 정책인 GRPO와 비교해 수행했다. D2Skill은 모든 설정에서 평균 성공률을 10~20%p 향상시켰으며, 특히 복잡한 웹 인터랙션 작업에서 큰 폭의 개선을 보였다. Ablation 연구에서는 (1) 이중 입자 모델을 제거하면 성공률이 크게 감소하고, (2) 유틸리티 기반 프루닝을 제외하면 메모리 사용량이 급증하면서도 성능이 저하됨을 확인했다. 생성된 스킬들의 평균 유틸리티는 베이스 라인보다 현저히 높으며, 다른 평가 설정에서도 전이 가능함을 보여 스킬의 일반화 능력을 입증했다. 훈련 오버헤드는 스킬 검색·업데이트 비용을 포함해 전체 학습 시간 대비 약 5~7% 수준에 머물렀다. 결론적으로 D2Skill은 스킬을 정적 저장소가 아니라 동적, 유틸리티‑구동형 메모리로 재구성함으로써, 에이전트가 과거 경험을 지속적으로 재활용하고, 단계별 오류를 즉시 교정하며, 메모리 규모를 효율적으로 제어하도록 만든 혁신적인 프레임워크이다.

동적 이중입자 스킬 뱅크로 에이전트 강화학습 혁신

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기