대규모 언어 모델을 활용한 강화학습 알고리즘 진화 탐색

**1. 서론** 강화학습(RL)에서 학습 업데이트 규칙은 경험을 파라미터 업데이트로 변환하는 핵심 메커니즘이다. 기존 연구는 주로 네트워크 구조, 보조 목표, 하이퍼파라미터 등을 자동화했지만, 업데이트 규칙 자체는 인간이 설계한 고정된 형태로 남아 있었다. 이는 새로운 학습 메커니즘을 발굴하기 어려운 구조적 제약을 만든다. 본 논문은 이러한 제약을 깨고, 업데이트 규칙을 코드 수준에서 직접 진화시키는 프레임워크를 제안한다. **2. 관련 연구** 자동화된 RL 설계는 크게 (i) 아키텍처 탐색, (ii) 하이퍼파라미터 최적화, (iii) 보조 목표 설계 등으로 구분된다. 진화적 방법과 유전 프로그래밍은 정책 파라미터, 네트워크 구조, 환경 자체를 변형하는 데 활용돼 왔으며, 최근에는 대형 언어 모델(LLM)을 변이 연산자로 도입해 복잡한 코드 구조를 생성하는 시도가 늘었다. 그러나 업데이트 규칙 자체를 탐색 대상으로 삼은 연구는 제한적이었다. **3. 방법론** - **문제 정의**: MDP \(M=(S,A,P,r)\)와 고정된 정책 아키텍처, 옵티마이저, 학습 루프를 전제로, 각 후보 업데이트 규칙 \(f\)는 손실 함수 \(L_f(\theta,\xi_t;D_t)\)와 파라미터/보조 상태 업데이트를 포함한다. - **검색 공간**: 모든 실행 가능한 파이썬 코드 형태의 업데이트 규칙을 포함하되, 액터‑크리틱, 부트스트랩, TD 오차와 같은 표준 메커니즘을 명시적으로 금지한다. - **적합도 평가**: 여러 Gymnasium 환경에서 전체 학습을 수행하고, 각 환경별 최고 반환값을 정규화 후 평균을 적합도로 사용한다. - **진화 구조**: REvolve와 동일한 섬(island) 기반 인구 모델을 사용한다. 각 세대마다 \(M\)개의 새로운 후보를 생성하고, 평균 적합도보다 높으면 교체한다. - **변이 연산자**: LLM을 이용해 매크로 변이와 크로스오버를 수행한다. 매크로 변이는 의미적으로 일관된 코드 블록을 한 번에 교체·삽입하고, 크로스오버는 두 부모 코드를 구조적 거리와 적합도를 결합한 확률 모델로 선택한다. - **LLM‑Guided Hyperparameter Optimization**: 진화 후 상위 \(K\)개의 규칙에 대해 LLM이 각 내부 스칼라 파라미터에 대한 합리적인 구간 \(

대규모 언어 모델을 활용한 강화학습 알고리즘 진화 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기