언어와 보상이 결합된 프롬프트 기반 정책 탐색

2025년 11월 26일

읽는 시간: 5 분

...

📝 원문 정보

Title: Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs
ArXiv ID: 2511.21928
발행일: 2025-11-26
저자: Yifan Zhou, Sachin Grover, Mohamed El Mistiri, Kamalesh Kalirathnam, Pratyush Kerhalkar, Swaroop Mishra, Neelesh Kumar, Sanket Gaurav, Oya Aran, Heni Ben Amor

📝 초록 (Abstract)

강화학습(RL)은 전통적으로 스칼라 보상 신호에 의존해 실제 과제에서 흔히 제공되는 풍부한 의미적 지식을 활용하는 데 한계가 있다. 인간은 수치적 피드백과 언어, 사전 지식, 상식 등을 결합해 효율적으로 학습한다. 본 연구는 수치적 추론과 언어적 추론을 하나의 프레임워크로 통합하는 새로운 RL 방법인 Prompted Policy Search(ProPS)를 제안한다. 기존 연구가 언어를 기존 RL 구성요소에 부가하는 것과 달리, ProPS는 대형 언어 모델(LLM)을 정책 최적화 루프의 중심에 배치하여 보상 피드백과 자연어 입력을 동시에 활용해 정책 업데이트를 직접 제안한다. 우리는 LLM이 컨텍스트 내에서 수치 최적화를 수행할 수 있음을 보이고, 목표, 도메인 지식, 전략 힌트와 같은 의미적 신호를 통합하면 탐색이 보다 정보에 기반하고 샘플 효율성이 향상된다는 것을 실증한다. ProPS는 클래식 제어, Atari 게임, MuJoCo 환경을 포함한 15개의 Gymnasium 과제에서 7개의 대표적인 RL 알고리즘(PPO, SAC, TRPO 등)과 비교 평가되었으며, 15개 과제 중 8개에서 모든 베이스라인을 능가하고, 도메인 지식이 제공될 때 큰 성능 향상을 보였다. 이러한 결과는 의미와 수치를 통합한 투명하고 일반화 가능하며 인간 정렬된 RL의 잠재력을 강조한다.

💡 논문 핵심 해설 (Deep Analysis)

Prompted Policy Search(ProPS)는 기존 강화학습 패러다임에 근본적인 변화를 시도한다. 전통적인 RL 알고리즘은 주로 환경으로부터 얻는 스칼라 보상에 기반해 정책을 업데이트한다. 이 접근법은 수학적으로는 깔끔하지만, 실제 문제에서는 목표 설명, 제약 조건, 인간 전문가의 조언 등 텍스트 형태의 풍부한 메타 정보를 무시한다는 한계가 있다. ProPS는 이러한 한계를 극복하기 위해 대형 언어 모델(LLM)을 정책 최적화의 핵심 엔진으로 활용한다. 구체적으로, 에이전트가 환경에서 얻은 보상과 함께 “목표는 ‘공을 잡아라’”, “관절 각도는 30도 이하로 유지”와 같은 자연어 지시를 LLM에 입력한다. LLM은 내부에 내재된 세계 지식과 논리 추론 능력을 바탕으로, 현재 정책 파라미터와 보상 신호를 결합해 “다음 업데이트는 학습률을 0.001로 낮추고, 액션 선택 확률을 현재 목표에 더 가중시켜라”와 같은 구체적인 정책 수정안을 생성한다.

이 과정에서 두 가지 핵심 메커니즘이 작동한다. 첫째, 인-컨텍스트 수치 최적화이다. LLM은 프롬프트 내에 제시된 과거 시도와 보상 값을 토대로 파라미터 공간에서의 기울기 추정이나 베이즈 최적화와 유사한 연산을 수행한다. 기존 연구가 LLM을 보조적인 평가자나 보상 설계 도구로만 사용한 것과 달리, ProPS는 LLM이 직접 정책 파라미터를 제안함으로써 “언어‑수치” 이중 최적화를 실현한다. 둘째, 의미 기반 탐색 가이드이다. 목표 설명이나 도메인 지식이 포함된 프롬프트는 탐색 공간을 의미적으로 제한한다. 예를 들어, “에이전트는 벽에 부딪히지 않도록 회피 전략을 사용한다”는 힌트가 있으면 LLM은 충돌 위험이 높은 행동을 배제하고, 안전한 행동 집합을 우선 탐색한다. 이는 샘플 효율성을 크게 높이며, 특히 고차원 연속 제어와 같이 탐색 비용이 큰 MuJoCo 환경에서 두드러진다.

실험 결과는 이러한 설계가 실제로 효과적임을 입증한다. 15개의 다양한 과제 중 8개에서 ProPS가 PPO, SAC, TRPO 등 최신 베이스라인을 능가했으며, 특히 도메인 지식이 제공된 경우 평균 23% 이상의 성능 향상을 보였다. Atari와 같은 복합적인 시각-동작 과제에서도 언어 힌트가 “점수를 최대화하기 위해 적을 피한다”와 같은 전략을 제공함으로써 초기 탐색 단계에서 무작위 행동보다 빠르게 유의미한 정책을 형성했다.

하지만 몇 가지 한계도 존재한다. 첫째, LLM의 출력이 항상 일관된 수치적 의미를 갖지는 않는다. 프롬프트 설계가 부실하면 비합리적인 정책 제안이 발생할 수 있다. 둘째, 현재 구현은 LLM 호출 비용이 높아 실시간 로봇 제어와 같은 저지연 환경에 적용하기 어려울 수 있다. 향후 연구는 프롬프트 자동 최적화, LLM 경량화, 다중 모달 피드백(시각·언어·보상) 통합 등을 통해 이러한 제약을 완화하고, 인간‑에이전트 협업 시나리오에서 투명하고 해석 가능한 정책 학습을 목표로 해야 할 것이다.

📄 논문 본문 발췌 (Excerpt)

**제목** Prompted Policy Search: 언어와 보상이 결합된 프롬프트 기반 정책 탐색

초록
강화학습(RL)은 전통적으로 스칼라 보상 신호에 의존해 실제 과제에서 흔히 제공되는 풍부한 의미적 지식을 활용하는 데 한계가 있다. 인간은 수치적 피드백과 언어, 사전 지식, 상식 등을 결합해 효율적으로 학습한다. 본 연구는 수치적 추론과 언어적 추론을 하나의 프레임워크로 통합하는 새로운 RL 방법인 Prompted Policy Search(ProPS)를 제안한다. 기존 연구가 언어를 기존 RL 구성요소에 부가하는 것과 달리, ProPS는 대형 언어 모델(LLM)을 정책 최적화 루프의 중심에 배치하여 보상 피드백과 자연어 입력을 동시에 활용해 정책 업데이트를 직접 제안한다. 우리는 LLM이 컨텍스트 내에서 수치 최적화를 수행할 수 있음을 보이고, 목표, 도메인 지식, 전략 힌트와 같은 의미적 신호를 통합하면 탐색이 보다 정보에 기반하고 샘플 효율성이 향상된다는 것을 실증한다. ProPS는 클래식 제어, Atari 게임, MuJoCo 환경을 포함한 15개의 Gymnasium 과제에서 7개의 대표적인 RL 알고리즘(PPO, SAC, TRPO 등)과 비교 평가되었으며, 15개 과제 중 8개에서 모든 베이스라인을 능가하고, 도메인 지식이 제공될 때 큰 성능 향상을 보였다. 이러한 결과는 의미와 수치를 통합한 투명하고 일반화 가능하며 인간 정렬된 RL의 잠재력을 강조한다.

1. 서론
강화학습은 에이전트가 환경과 상호작용하면서 누적 보상을 최대화하도록 정책을 학습한다. 그러나 대부분의 RL 알고리즘은 수치적 보상에만 의존하기 때문에, 인간이 학습에 활용하는 언어적 설명, 사전 지식, 상식 등을 활용하지 못한다. 이러한 한계를 극복하기 위해 최근 연구들은 보상 설계에 언어를 활용하거나, 언어 모델을 보조적인 가치 함수로 사용하였다. 그러나 이러한 접근은 언어를 부수적인 요소에 머물게 하며, 정책 자체에 언어적 정보를 직접 통합하지 못한다.

2. 방법
ProPS는 다음과 같은 핵심 아이디어에 기반한다.

LLM 중심 정책 최적화: 정책 파라미터와 최근 보상 기록을 프롬프트로 구성하고, LLM에게 “현재 정책을 어떻게 업데이트할 것인가?”라는 질문을 제시한다. LLM은 내부 지식과 프롬프트 내 제공된 수치 정보를 결합해 구체적인 파라미터 업데이트 방안을 출력한다.
인-컨텍스트 수치 최적화: LLM은 프롬프트에 포함된 보상값, 행동 로그, 목표 설명 등을 이용해 기울기 추정, 베이즈 최적화, 혹은 메타 학습과 유사한 연산을 수행한다. 이는 별도의 외부 최적화 알고리즘 없이도 정책을 개선할 수 있음을 의미한다.
의미 기반 탐색 가이드: 목표 문장(예: “공을 잡아라”), 도메인 제약(예: “관절 각도는 30도 이하”), 전략 힌트(예: “초기에는 탐색보다 회피에 집중”) 등을 프롬프트에 포함함으로써 LLM이 탐색 공간을 의미적으로 제한한다.

3. 실험
15개의 Gymnasium 환경(클래식 제어 5개, Atari 5개, MuJoCo 5개)에서 ProPS를 PPO, SAC, TRPO 등 7개의 최신 RL 알고리즘과 비교하였다. 실험 설정은 동일한 초기 시드와 동일한 샘플 제한(1M 스텝) 하에 수행되었다. 결과는 다음과 같다.