
Prompted Policy Search: Reinforcement Learning through Linguistic and Numerical Reasoning in LLMs
Prompted Policy Search(ProPS)๋ ๊ธฐ์กด ๊ฐํํ์ต ํจ๋ฌ๋ค์์ ๊ทผ๋ณธ์ ์ธ ๋ณํ๋ฅผ ์๋ํ๋ค. ์ ํต์ ์ธ RL ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ๋ก ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ป๋ ์ค์นผ๋ผ ๋ณด์์ ๊ธฐ๋ฐํด ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ์ํ์ ์ผ๋ก๋ ๊น๋ํ์ง๋ง, ์ค์ ๋ฌธ์ ์์๋ ๋ชฉํ ์ค๋ช , ์ ์ฝ ์กฐ๊ฑด, ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ์กฐ์ธ ๋ฑ ํ ์คํธ ํํ์ ํ๋ถํ ๋ฉํ ์ ๋ณด๋ฅผ ๋ฌด์ํ๋ค๋ ํ๊ณ๊ฐ ์๋ค. ProPS๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ ์ฑ ์ต์ ํ์ ํต์ฌ ์์ง์ผ๋ก ํ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์์ด์ ํธ๊ฐ ํ๊ฒฝ์์ ์ป์ ๋ณด์๊ณผ ํจ๊ป โ๋ชฉํ๋ โ๊ณต์ ์ก์


































