
Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
์ด ๋ ผ๋ฌธ์ ๋ก๋ด ์กฐ์ ์์คํ ์ด ์ง๋ฉดํ ๋ ๊ฐ์ง ํต์ฌ ๊ณผ์ , ์ฆ โ๋์ ์๋ฏธ์ ์ผ๋ฐํโ์ โ๊ณ ์ ๋ฐ ์ฐ์ ์ ์ดโ ์ฌ์ด์ ๊ท ํ์ ์ ๋ฐํ๊ฒ ์ง๋จํ๊ณ ํด๊ฒฐ์ฑ ์ ์ ์ํ๋ค๋ ์ ์์ ํฐ ์๋ฏธ๊ฐ ์๋ค. ๋จผ์ ERIQ(Embodied Reasoning Intelligence Quotient)๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๋์ ํ๋๋ฐ, ์ด๋ ๊ธฐ์กด VLA ๋ชจ๋ธ ํ๊ฐ๊ฐ โ์ ๋ ฅโ์ถ๋ ฅโ ํํ์ ์ฑ๊ณต๋ฅ ์๋ง ์ด์ ์ ๋ง์ถ๋ ๋ฐ๋ฉด, ์ง๋ฌธโ๋ต๋ณ ํํ์ 6์ฒ ๊ฐ ์ด์ ๋ฐ์ดํฐ์ ์ ํตํด โ์ถ๋ก ๋จ๊ณโ๋ฅผ ๋ณ๋๋ก ์ธก์ ํ๋ค๋ ์ ์ด ์ฐจ๋ณ์ ์ด๋ค. ๋ค ๊ฐ์ง ์ถ๋ก ์ฐจ์(์: ๋ฌผ์ฒด ๊ด๊ณ ์ดํด,











