메모리 제한 환경에서도 강력한 GRAVE 성능 유지하기

본 논문은 GRAVE 알고리즘의 메모리 사용량을 크게 줄이면서도 기존 수준의 게임 플레이 강도를 유지하는 세 가지 변형인 GRAVE2, GRAVER, GRAVER2를 제안한다. 두 단계 탐색과 노드 재활용(LRU) 기법을 결합해 저장 노드 수를 최소화하고, 9×9 바둑 실험에서 기존 GRAVE와 동등한 승률을 보이며 메모리 발자국을 크게 감소시켰다.

저자: Aloïs Rautureau, Tristan Cazenave, Éric Piette

메모리 제한 환경에서도 강력한 GRAVE 성능 유지하기
**1. 서론** Monte‑Carlo Tree Search(MCTS)는 다양한 게임과 의사결정 문제에서 성공을 거두었지만, 대부분 충분한 메모리를 전제로 한다. 특히 GRAVE는 AMAF 통계를 각 노드에 추가 저장해 탐색 효율을 높이지만, 노드당 메모리 사용량이 크게 늘어나 메모리 제한 환경에서 적용이 어려웠다. 본 연구는 이러한 제약을 극복하고자 두 가지 메모리 절감 전략을 제안한다. **2. 관련 연구** 전통적인 UCT와 RA‑VE, 그리고 AMAF 기반의 선택 정책을 소개한다. 두 단계 탐색은 PN²와 같은 알고리즘에서 영감을 받았으며, 노드 재활용은 ISMCTS에서 LRU 캐시를 이용한 방법을 차용한다. **3. 제안 알고리즘** - **GRAVE2 (두 단계 탐색)**: 루트 트리에서 리프를 확장하면, 해당 리프를 루트로 하는 두 번째 탐색 트리를 생성한다. 두 트리 간에 AMAF 값을 공유하는 ‘전방 공유(forward sharing)’를 도입해, 두 번째 트리에서도 상위 트리의 AMAF 통계를 활용한다. λ 파라미터가 전체 노드 예산을 두 트리 사이에 배분한다. - **GRAVER (노드 재활용)**: 고정 크기 노드 풀에 LRU 캐시를 적용해 가장 오래된 노드를 교체한다. 내부 노드는 재활용되지 않으며, AMAF 통계가 남아 있는 리프 노드도 재활용 가능하도록 설계했다. - **GRAVER2 (두 단계 + 재활용)**: 상위와 하위 트리 모두에서 노드 재활용을 수행한다. 이때 P_top와 P_sec가 독립적으로 설정되어, 전체 플레이아웃 수 P = P_top × P_sec 로 계산된다. **4. 실험 설정** 9×9 바둑을 테스트베드로 사용했으며, 기본 GRAVE를 P=N=10 000으로 설정했다. 모든 알고리즘은 동일한 MAST(ε‑greedy, ε=0)와 β, reference threshold 파라미터(β=10⁻², threshold=25)를 사용했다. 각 설정에서 500게임을 수행해 승률과 95% 신뢰구간을 Agresti‑Coull 방법으로 계산했다. **5. 결과 및 분석** - **두 단계 탐색**: λ=0.5, N_top=N_sec=120(총 240노드)에서 GRAVE2가 GRAVE와 통계적으로 동등한 승률을 보였다. forward sharing는 큰 차이를 만들지는 않았지만, 200노드 이하에서도 동일한 성능을 유지할 수 있게 해준다. UCT²는 440노드 이상 필요했다. - **노드 재활용**: GRAVER는 약 1 536노드에서야 GRAVE와 동등한 승률을 달성했으며, 재활용만으로는 메모리 절감 효과가 제한적임을 확인했다. 그러나 재활용은 anytime 특성을 제공해, 중간에 검색을 중단해도 유의미한 결과를 얻을 수 있다. - **두 기법 결합**: GRAVER2는 200~300노드 범위에서 GRAVE와 거의 동일한 승률을 기록했으며, λ=0.5가 최적임을 확인했다. 두 번째 레벨에서 추가 플레이아웃을 수행함으로써 전체 플레이아웃 수를 늘리면서도 메모리 사용량은 고정된 풀 안에 머물렀다. **6. 논의** 두 단계 탐색은 메모리 사용을 상수 배만큼만 증가시키면서도 탐색 깊이를 효과적으로 늘려준다. forward sharing는 AMAF 정보를 재활용해 탐색 효율을 약간 향상시킨다. 노드 재활용은 메모리 제한이 극단적인 경우에 유용하지만, AMAF 통계 손실로 인한 성능 저하가 발생한다. 두 기법을 결합하면 각각의 장점을 보완할 수 있다. 또한, 인간의 작업 기억 제한과 유사한 정보 복잡도 제어 모델링에도 적용 가능하다. **7. 결론** GRAVE2, GRAVER, GRAVER2는 메모리 제약이 있는 환경에서도 강력한 MCTS 기반 에이전트를 구현할 수 있음을 입증한다. 특히 GRAVER2는 10 000개의 플레이아웃을 수행하면서도 300개 이하의 노드만 저장해 기존 GRAVE와 동등한 승률을 달성한다. 향후 연구에서는 다른 게임 도메인, 비대칭 정보 게임, 그리고 실제 임베디드 하드웨어에 대한 구현 및 최적화를 진행할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기