이질적 신경망의 신용 할당 문제를 해결하는 딥 이노베이션 보호

본 논문은 세계 모델과 같은 이질적 신경망 구조를 진화적 알고리즘으로 전역 최적화할 때 발생하는 신용 할당 문제를 해결하기 위해 ‘딥 이노베이션 보호(Deep Innovation Protection, DIP)’라는 다목적 최적화 기법을 제안한다. DIP는 시각·메모리 모듈이 변형될 경우 해당 개체의 ‘age’ 목표값을 초기화해 컨트롤러가 충분히 적응할 시간을 제공한다. 이를 NSGA‑II와 결합해 VizDoom:Take Cover와 CarRac…

저자: Sebastian Risi, Kenneth O. Stanley

이질적 신경망의 신용 할당 문제를 해결하는 딥 이노베이션 보호
본 논문은 세계 모델(World Model)과 같은 복합적인 신경망 구조를 진화적 방법으로 전역 최적화할 때 발생하는 ‘신용 할당 문제(Credit Assignment Problem, CAP)’를 해결하고자 한다. 기존의 세계 모델은 시각 인코더, 메모리(LSTM 기반 MDN‑RNN), 그리고 행동 컨트롤러의 세 모듈로 구성되며, 각각을 별도로 학습하거나 전체 네트워크를 단일 목표(최종 보상)만으로 최적화하는 방식이 일반적이었다. 그러나 이러한 접근은 모듈 간 상호 의존성이 강한 복잡한 3D 환경(VizDoom)에서는 효과가 떨어진다. 특히, 시각이나 메모리 모듈이 변형될 경우 컨트롤러가 급격히 성능 저하를 겪으며, 진화 과정에서 좋은 해를 찾지 못한다는 점이 확인되었다. 이를 극복하기 위해 저자들은 ‘Deep Innovation Protection(DIP)’이라는 새로운 다목적 진화 기법을 제안한다. DIP는 NSGA‑II(Non‑Dominated Sorting Genetic Algorithm II)를 기반으로 두 개의 목표를 동시에 최적화한다. 첫 번째 목표는 누적 보상(에이전트가 얻은 총 점수)이며, 두 번째 목표는 ‘age’이다. ‘age’는 개체가 현재 세대까지 유지된 기간을 의미하지만, 시각(Vision Component, VC)이나 메모리(MDN‑RNN) 모듈이 변형될 경우 해당 개체의 ‘age’를 0으로 리셋한다. 이렇게 하면 변형된 상위 모듈이 컨트롤러에게 충분히 적응할 시간을 제공하고, 선택 압력이 일시적으로 감소한다. 결과적으로 동일한 보상을 얻은 개체들 중에서 변형이 적은(‘age’가 낮은) 개체가 더 높은 선택 확률을 갖게 된다. 이는 전통적인 ‘age’를 다양성 유지에 사용하는 방식과는 달리, 변형된 모듈에 대한 보호 기간을 명시적으로 제공한다는 점에서 차별화된다. 실험은 두 가지 벤치마크, 2D CarRacing‑v0와 3D VizDoom:Take Cover를 대상으로 수행되었다. CarRacing‑v0에서는 DIP와 기존 GA 모두 평균 점수 900점대(± 80, ± 72)를 기록하며 큰 차이가 없었다. 이는 과제가 비교적 단순하고, 모듈 간 상호 작용이 제한적이기 때문이다. 반면 VizDoom:Take Cover에서는 DIP가 평균 824점(표준편차 ≈ 492)을 달성해, 다른 모든 대조군(컨트롤러 혁신 보호, MDN‑RNN·컨트롤러 보호, 무작위 age, 표준 GA)보다 현저히 높은 성능을 보였다. 특히 표준 GA는 이 과제에서 전혀 해결하지 못했으며, 무작위 age는 다양성을 증가시켜 약간의 개선을 보였지만 DIP만큼 효과적이지 않았다. 이는 복잡한 3D 환경에서 상위 모듈의 변화를 보호하고, 하위 모듈이 이를 학습할 시간을 주는 것이 성공적인 진화에 필수적임을 입증한다. 학습된 정책의 내부 작동 메커니즘을 분석하기 위해 교란 기반 saliency map과 t‑SNE 차원 축소를 적용했다. saliency map 결과, 에이전트는 벽, 파이어볼, 몬스터 위치와 같은 생존에 직접적인 요소에 높은 주의를 기울이며, 화면 하단의 체력·탄약 표시까지 활용한다는 점이 드러났다. t‑SNE 시각화에서는 시각 인코더가 출력하는 32차원 잠재 벡터(z)만으로는 행동을 구분하기 어렵지만, LSTM 메모리의 은닉 상태와 결합될 경우 명확한 클러스터가 형성되어 행동 결정에 필요한 정보를 충분히 제공한다는 사실을 확인했다. 이는 전통적인 재구성 손실이나 미래 예측 손실을 사용하지 않아도, 진화 과정 자체가 ‘생존에 중요한 특징’을 자동으로 학습할 수 있음을 보여준다. 기술적 기여는 다음과 같다. 첫째, 이질적 신경망을 하나의 진화 개체로 취급하면서 모듈별 변형 시점을 추적해 선택 압력을 동적으로 조절하는 ‘Deep Innovation Protection’ 메커니즘을 제안하였다. 둘째, NSGA‑II 기반 다목적 최적화를 통해 ‘성능’과 ‘age’라는 상충 목표를 동시에 고려함으로써, 변형된 모듈이 충분히 적응할 수 있는 보호 기간을 제공하였다. 셋째, 복합 환경에서 DIP가 기존 GA보다 월등히 높은 성공률을 보이며, 진화된 네트워크가 인간이 설계한 전통적인 예측 손실 없이도 의미 있는 내부 표현을 형성한다는 점을 실험적으로 입증하였다. 이러한 접근은 멀티모달 로봇 제어, 자율 주행, 그리고 복합 인지 시스템 등에서 모듈 간 협업을 요구하는 학습 문제에 적용 가능성을 열어준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기