간단한 스파이킹 액터 S2Act: 모바일 로봇을 위한 효율적인 SNN‑RL 프레임워크

S2Act는 레이트‑기반 LIF 뉴런을 ReLU와 유사하게 설계해 역전파 학습이 가능한 ANN을 먼저 학습하고, 훈련된 가중치를 실제 스파이킹 LIF 뉴런 파라미터로 변환해 Intel Loihi와 같은 뉴로모픽 하드웨어에 배치하는 방법을 제안한다. 캡처‑더‑플래그와 주차 시뮬레이션 등 다중 로봇 환경에서 기존 SNN‑RL 기법들을 능가하며, 하드웨어 구현 시 실시간 추론과 에너지 효율성을 확보한다.

저자: Ugur Akcal, Seung Hyun Kim, Mikihisa Yuasa

간단한 스파이킹 액터 S2Act: 모바일 로봇을 위한 효율적인 SNN‑RL 프레임워크
본 논문은 모바일 로봇에 적용 가능한 스파이킹 신경망(SNN) 기반 강화학습(RL) 정책을 설계·학습·배포하는 전 과정을 단순화한 프레임워크인 S2Act(Simple Spiking Actor)를 제안한다. 기존 SNN‑RL 접근법은 인구 코딩, 보상 변조, ANN‑SNN 하이브리드 등 다양한 형태가 존재하지만, 복잡한 뉴런 모델과 하이퍼파라미터 튜닝에 높은 비용이 소요되고, 스파이크 발생률이 제한된 구간에서 그래디언트 소실·폭발 문제가 빈번해 복잡하고 확률적인 환경에서 안정적인 학습이 어려웠다. S2Act는 이러한 문제를 해결하기 위해 세 단계 접근법을 채택한다. 첫째, 레이트‑기반 LIF(Leaky Integrate‑and‑Fire) 뉴런을 사용해 ANN 형태의 액터‑크리틱 네트워크를 설계한다. 여기서 핵심은 LIF 뉴런의 파라미터(C_m, τ_m, V_th 등)를 전역적으로 조정해 그 발화율 곡선을 ReLU 활성화와 근사시키는 것이다. 이 “soft‑ReLLIF” 활성화는 그래디언트가 연속적이고 제한된 범위 내에 머물게 하여, 역전파 기반 PPO(Proximal Policy Optimization) 학습이 안정적으로 진행될 수 있게 만든다. 둘째, 위에서 설계한 ANN을 PPO를 이용해 시뮬레이션 환경에서 학습한다. 액터와 크리틱 모두 두 개의 완전 연결(Dense) 레이어(각 64 뉴런)로 구성되며, 입력은 로봇 및 환경 객체의 위치 정보를 벡터화한 것이다. 학습 과정에서 그래디언트가 무한대가 되는 임계점을 부드러운 로그‑시그모이드(γ·log(1+e^{x/γ}))로 완화하고, 전체 뉴런에 동일한 파라미터를 적용함으로써 개별 뉴런 튜닝 부담을 크게 감소시켰다. 셋째, 학습이 완료된 후 액터 네트워크의 soft‑ReLLIF 뉴런을 실제 스파이킹 LIF 뉴런으로 교체한다. 가중치는 그대로 유지하고, 뉴런 파라미터만 사전에 정의된 ReLU‑근사값에 맞게 설정하면 되므로, 별도의 복잡한 변환 절차가 필요 없다. 이렇게 변환된 SNN은 Intel Loihi와 같은 뉴로모픽 하드웨어에 바로 배포될 수 있다. 실험은 두 가지 다중 로봇 시나리오, 즉 캡처‑더‑플래그(CtF)와 주차(parking) 환경에서 수행되었다. CtF는 2대 대 2대의 적대적 에이전트가 존재하고, 보상이 희소하고 지연되는 복잡한 과제로, 정책의 장기 계획 능력을 시험한다. 주차 환경은 연속적인 제어가 요구되는 실시간 로봇 제어 과제로, 스파이크 기반 정책의 응답 속도와 정밀도를 평가한다. 두 시뮬레이션 모두 실제 TurtleBot에 Loihi 보드를 탑재해 실험을 진행했으며, 성능 지표(성공률, 평균 보상, 추론 지연, 전력 소비)에서 기존 PopSAN(인구 코딩 기반), Hybrid SNN(ANN‑SNN 하이브리드), RSNN(재귀 SNN) 등과 비교해 전반적으로 우수한 결과를 얻었다. 특히, S2Act는 스파이크 발생률을 제한된 범위 내에서 유지하면서도 높은 정책 품질을 유지했으며, 하드웨어 구현 시 실시간 추론 지연이 1~2ms 수준으로 매우 낮았다. 논문은 또한 S2Act의 제한점도 언급한다. 현재는 레이트‑코딩 기반이며, 복잡한 시각 입력(이미지) 처리에는 CNN 구조를 직접 적용하기 어렵다. 또한, 전역 파라미터 설계가 현재는 고정값으로 설정돼 다양한 로봇 플랫폼이나 환경에 맞춤형 조정이 필요할 수 있다. 향후 연구 방향으로는 스파이킹 컨볼루션 레이어와의 통합, 다중 에이전트 간 메시징 프로토콜 설계, 다양한 뉴로모픽 플랫폼(예: SpiNNaker, BrainScaleS)으로의 이식성 검증, 그리고 하드웨어‑인-더‑루프 학습(online learning) 등을 제시한다. 결론적으로, S2Act는 “간단하지만 강력한” ANN‑to‑SNN 변환 기법을 통해 스파이킹 뉴런의 장점(에너지 효율, 비동기성)과 ANN의 학습 효율성을 동시에 확보한다. 이는 모바일 로봇 분야에서 실시간, 저전력 정책 배포를 원하는 연구자와 엔지니어에게 실용적인 솔루션을 제공하며, 향후 복잡한 로봇 시스템에 뉴로모픽 하드웨어를 적용하는 데 중요한 발판이 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기