모바일 로봇 제어를 위한 이디오타입 면역 네트워크와 강화학습 통합

본 연구는 Jerne의 이디오타입 면역 네트워크 이론을 모바일 로봇 제어에 적용하기 위한 구체적인 구현 방법과 그 효과를 실험적으로 검증한다. 먼저, 면역 시스템의 두 주요 이론인 클론 선택 이론과 이디오타입 네트워크 이론을 비교하고, 후자가 행동 선택에 있어 전역적인 조정 메커니즘을 제공한다는 점을 강조한다. 기존 연구에서는 이디오타입 네트워크를 사용한 로봇 제어가 제시되었지만, 구현 세부 사항과 비이디오타입 기반 시스템과의 비교가 부족했다는 문제점을 지적한다. 이를 해결하기 위해 저자는 세 가지 시스템을 설계하였다. 첫 번째 시스템(S1)은 전통적인 강화학습(RL)만을 사용해, 환경으로부터 감지된 항원(센서 입력)과 행동 모듈(항체) 사이의 매칭 점수에 기반해 행동을 선택한다. 두 번째 시스템(S2)은 하이브리드 구조로, Farmer 식을 변형해 항체 간 억제·자극을 계산하지만, 항체 농도(concentration)를 선택 과정에 반영하지 않는다. 즉, 항체 간 상호작용이 전역 강도(global strength)라는 단일 값에 통합되어 선택에 사용된다. 세 번째 시스템(S3)은 완전한 AIS‑RL 하이브리드로, 항체 농도와 전역 강도를 곱한 값을 선택 기준으로 삼으며, 억제·자극 연산 결과를 다시 농도 업데이트에 피드백한다. 이때 사용되는 Farmer 식(식 1)은 항원에 대한 자극, 다른 항체에 의한 억제, 다른 항체에 의한 자극을 각각 모델링하고, k₁·k₂·b 파라미터를 통해 자극·억제 비율과 사망률을 조절한다. 논문은 세 가지 가설을 제시한다. 첫 번째 가설은 이디오타입 억제·자극 메커니즘이 행동 다양성을 유지해 조기 수렴을 방지한다는 것이다. 두 번째 가설은 농도 피드백이 포함된 전역 강도가 환경 변화에 대한 민감도를 높여 빠른 재학습을 촉진한다는 점이다. 세 번째 가설은 네트워크 내부의 상호작용이 로봇의 전반적인 행동 흐름을 전역적으로 조정해 복잡한 미로 탐색 및 문 마커 추적 과제에서 성공률을 향상시킨다는 것이다. 실험은 시뮬레이션된 Pioneer 로봇을 이용해 5개의 서로 다른 미로 환경에서 수행되었다. 각 시스템은 30번씩 반복 실행되었으며, 성공률, 평균 이동 거리, 학습 횟수, 행동 전환 횟수 등을 측정했다. 결과는 다음과 같다. S3는 평균 성공률 92%와 평균 이동 거리 1.8 m를 기록하며 가장 우수한 성능을 보였다. S2는 S1에 비해 약 15% 정도 성공률이 향상되었으며, 평균 이동 거리도 감소했다. 특히 S3는 로봇이 함정에 빠졌을 때 억제·자극 메커니즘을 통해 대안 행동을 빠르게 선택해 탈출하는 모습을 보였으며, 이는 가설①·②를 실증적으로 뒷받침한다. S2에서도 전역 강도만으로도 일정 수준의 적응성을 확보할 수 있음을 확인했다. 구현 세부 사항으로는 항원·항체를 이진 문자열로 표현하고, 매칭 함수 U, V, W를 각각 항원-항체, 항체-항체 억제, 항체-항체 자극에 대응하도록 설계하였다. 초기 농도는 균등하게 설정했으며, k₁=1, k₂=0.1, b=0.05 등 파라미터는 사전 실험을 통해 최적화하였다. 또한, 농도 임계값 이하인 항체는 제거하고 새로운 무작위 항체로 교체하는 메커니즘을 도입해 자연적인 면역 기억 유지와 유사한 동적 변화를 구현했다. 결론적으로, 이디오타입 면역 네트워크는 전통적인 강화학습에 비해 행동 선택의 전역적 조정과 적응성을 크게 향상시킨다. 특히 농도 피드백을 포함한 완전한 AIS‑RL 구조는 환경 변화에 빠르게 대응하고, 조기 수렴을 방지하며, 로봇이 복잡한 탐색 과제에서 효율적으로 목표를 달성하도록 돕는다. 저자는 향후 연구에서 네트워크 연결을 진화시키는 메커니즘, 다중 로봇 협업, 실제 하드웨어 적용 등을 탐색할 것을 제안한다.

모바일 로봇 제어를 위한 이디오타입 면역 네트워크와 강화학습 통합

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기