
Quantifying Memory Use in Reinforcement Learning with Temporal Range
Temporal Range๋ ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ๊ณผ๊ฑฐ ๊ด์ธก์ ์ผ๋ง๋ ํ์ฉํ๋์ง๋ฅผ ์ ๋ํํ๋ ค๋ ์๋์์ ์ถ๋ฐํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ ์ฑ ๋คํธ์ํฌ์ ๊ตฌ์กฐ์ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋(์: RNN์ hidden size)์ด๋ ํ๋ จ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํตํด ๊ฐ์ ์ ์ผ๋ก ์ถ์ ํ์ง๋ง, ์ค์ ์ ๋ ฅโ์ถ๋ ฅ ๊ด๊ณ๊ฐ ์ด๋ ์์ ๊น์ง ์ํฅ์ ๋ฏธ์น๋์ง๋ ๋ช ํํ ๋๋ฌ๋์ง ์์๋ค. ์ด ๋ ผ๋ฌธ์ ๊ทธ๋ฐ ๊ณต๋ฐฑ์ ๋ฉ์ฐ๊ธฐ ์ํด โ์๊ฐ์ ์ํฅ ํ๋กํ์ผโ์ด๋ผ๋ ๊ฐ๋ ์ ๋์ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์์ t ์์ ์ ๋ ฅ x t ๊ฐ ์ดํ ์์ s ( t < s โค T )์ ์ถ๋ ฅ y s ์ ๋ฏธ์น๋ 1์ฐจ ๋ฏผ๊ฐ














































