딥 강화학습 기반 가상 에이전트로 물고기 무리 유도

본 연구는 PPO 알고리즘으로 학습된 가상 에이전트를 이용해 실시간으로 물고기 무리를 유도하는 폐쇄‑루프 시스템을 제안한다. 복합 보상 함수는 방향성 안내와 사회적 결속을 동시에 고려하며, 시각적 파라미터(배경색, 자극 크기)와 군집 규모에 따른 성능을 실험적으로 평가한다. 5마리 집단에서는 유도가 성공했지만, 8마리로 확대될 경우 효율이 급격히 감소한다는 결과를 제시한다.

저자: Takato Shibayama, Hiroaki Kawashima

딥 강화학습 기반 가상 에이전트로 물고기 무리 유도
본 논문은 물고기 무리와 인공 가상 에이전트 간의 실시간 폐쇄‑루프 상호작용을 구현하기 위한 딥 강화학습 프레임워크를 제시한다. 연구 배경으로는 생물 집단 행동의 사회적 상호작용 메커니즘을 규명하고, 자동화된 동물 관리 및 바이오‑인스파이어드 로보틱스에 적용할 수 있는 기술적 기반을 마련하고자 하는 목표가 있다. 기존 연구들은 Q‑learning 기반으로 소규모(3마리) 군집을 단일 중심점으로 모델링했으나, 상태공간의 이산화와 보상의 단순성 때문에 규모 확대에 한계가 있었다. 이를 극복하기 위해 저자는 연속적인 상태공간과 다중 목표 보상을 갖는 PPO 기반 정책을 설계하였다. 시스템 구성은 크게 네 부분으로 나뉜다. 첫째, 실시간 비전 모듈은 전면 카메라와 YOLOv10을 이용해 물고기의 2D 좌표를 10 fps로 추적한다. 추적된 좌표는 사전 캘리브레이션된 변환 행렬을 통해 디스플레이 좌표계와 매핑된다. 둘째, 강화학습 환경은 가상 에이전트와 물고기 군집 중심(또는 클러스터 중심)으로 구성되며, 상태벡터는 에이전트 자체 위치와 목표점(실제 물고기 좌표)으로 이루어진다. 셋째, 행동은 8방향 이동으로 이산화했으며, 실제 움직임은 1차 지연 모델을 적용해 물고기의 버스트‑앤‑코스트 특성을 반영한다. 넷째, 보상 함수는 r_β = β r_school + (1 − β) r_direction 형태로, β는 사회적 결속과 목표 진행 사이의 가중치를 조절한다. r_school은 각 물고기와 가장 가까운 가상 에이전트 간 거리의 평균을 기반으로 근접성을 장려하고, r_direction은 가상 에이전트 군집의 수평 좌표가 목표 끝점에 가까워질수록 높은 값을 부여한다. 시뮬레이션 단계에서는 물고기 군집을 하나의 중심점으로 단순화하고, 확률적 무시(p) 파라미터를 도입해 비결정적 행동을 모델링하였다. PPO 학습은 약 10⁶ 스텝을 수행했으며, 학습된 정책은 추가 파인튜닝 없이 물리 실험에 바로 적용되었다. 물리 실험은 아크릴 탱크와 LCD 디스플레이를 이용해 수행됐으며, 물고기는 rummy‑nose tetras(Petitella bleheri) 종을 사용했다. 실험 전 단계에서는 배경색(흰색 vs 검은색)과 자극 크기(작음 vs 큼)를 변형해 시각적 매개변수가 유도 효율에 미치는 영향을 조사했다. 결과는 흰색 배경과 큰 자극이 가장 높은 유도 성공률을 보였으며, 이는 물고기의 시각적 주의가 배경 대비도와 자극 면적에 크게 의존함을 시사한다. 그 다음 단계에서는 군집 규모를 N_r = 5와 N_r = 8로 확대해 시스템의 확장성을 평가했다. 5마리 군집에서는 평균 유도 성공률이 78 %에 달했으며, 가상 에이전트가 물고기와 지속적으로 근접해 있는 것이 확인되었다. 그러나 8마리로 확대될 경우 성공률이 32 % 이하로 급감했으며, 물고기 간의 자연스러운 사회적 상호작용이 가상 자극의 영향을 약화시키는 현상이 나타났다. 다중 에이전트 구성을 적용해 군집을 여러 클러스터로 나누어 각각 담당하게 했지만, 에이전트 간 협조가 충분히 이루어지지 않아 규모가 커질수록 성능 저하가 뚜렷했다. 논의에서는 현재 프레임워크가 소규모 군집에 대해서는 효과적인 가이드라인을 제공하지만, 대규모 군집에서는 사회적 상호작용의 복잡성으로 인해 정책의 일반화가 어려워진다는 점을 강조한다. 향후 연구 방향으로는 계층적 강화학습, 멀티‑에이전트 협조 메커니즘, 그리고 물고기의 행동 모델을 보다 정교하게 반영한 시뮬레이션 환경 구축이 제시된다. 또한, 실시간 온라인 학습을 통해 정책을 지속적으로 업데이트하는 방법도 고려될 수 있다. 결론적으로, 본 연구는 딥 강화학습 기반 가상 에이전트를 이용한 실시간 폐쇄‑루프 시스템이 물고기 무리 유도에 성공적으로 적용될 수 있음을 실험적으로 입증했으며, 보상 설계와 시각적 파라미터 최적화가 핵심 성공 요인임을 밝힌다. 동시에, 군집 규모 확대에 따른 한계점을 제시함으로써 향후 연구에 중요한 과제를 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기