뇌를 닮은 객체 인식을 위한 얕은 재귀 신경망 CORnet‑S

본 연구는 현대 딥러닝 모델이 이미지 분류 정확도에서는 뛰어나지만, 뇌의 구조적·기능적 특성을 충분히 반영하지 못한다는 점을 비판적으로 검토한다. 특히, 수백 개의 레이어를 가진 ResNet, Inception, NASNet 등은 인간 및 영장류 시각 피질의 V1, V2, V4, IT와 같은 제한된 수의 영역에 매핑하기 어렵고, 재귀 연결이 결여돼 시간적 처리 메커니즘을 설명하지 못한다는 한계가 있다. 이러한 문제를 해결하고자 저자들은 “CORnet‑S”라는 새로운 모델을 설계했다. **모델 설계** CORnet‑S는 네 개의 모듈(V1 COR, V2 COR, V4 COR, IT COR)로 구성되며, 각각은 뇌의 해당 시각 영역에 직접 대응한다. V1 COR은 7×7 컨볼루션(스트라이드 2) → 3×3 맥스 풀링(스트라이드 2) → 3×3 컨볼루션으로 입력 이미지의 해상도와 복잡도를 크게 낮춘다. V2, V4, IT 모듈은 1×1 → 3×3 병목형 컨볼루션 → 1×1 구조를 따르며, 각 컨볼루션 뒤에 배치 정규화와 ReLU가 적용된다. 재귀는 동일 모듈 내부에서 여러 번 반복되는데, V2와 IT는 2회, V4는 4회 반복한다. 이 재귀는 “시간 단계”를 형성해 모델이 입력에 대해 여러 번 처리하도록 하며, 실제 뇌에서 관찰되는 피드포워드와 피드백의 상호작용을 모방한다. **학습 및 구현** PyTorch 0.4.1 기반으로 ImageNet‑2012를 사용해 43 epoch 동안 학습했으며, 배치 크기 256, SGD(모멘텀 0.9)와 0.1에서 시작해 20 epoch마다 10배 감소하는 학습률 스케줄을 적용했다. 데이터 전처리는 훈련 시 랜덤 크롭·좌우 반전, 검증 시 중앙 크롭을 사용했으며, 모든 입력은 평균·표준편차 정규화하였다. 최종 모델은 ImageNet Top‑1 정확도 73.1 %를 달성했다. **Brain‑Score 평가** Brain‑Score는 (1) V4·IT 신경 반응 예측 정확도, (2) 인간·영장류 행동 패턴 예측, (3) IT 신경 역학(시간에 따른 반응 변화) 예측을 각각 측정하고, 이 네 점수의 평균으로 전체 점수를 산출한다. 신경 예측은 부분 최소 제곱(PLS) 회귀(25 컴포넌트)와 10‑fold 교차검증을 통해 수행했으며, Pearson r의 중앙값을 사용한다. 행동 예측은 2,400장의 이미지에 대해 인간 1,472명의 2‑AFC 응답을 기반으로 d′(d0) 지표를 계산한다. CORnet‑S는 전체 Brain‑Score 0.90으로 현재 최고 점수를 기록했으며, 특히 V4·IT 신경 예측에서 기존 깊은 피드포워드 모델을 크게 앞섰다. 재귀를 제거한 변형 모델은 Brain‑Score가 0.78 이하로 급락했으며, 이는 재귀가 신경 및 행동 예측 모두에 핵심적인 역할을 함을 증명한다. 또한, IT 모듈의 시간별 활성 패턴은 실제 원숭이 IT 뉴런의 70‑170 ms 구간 반응 궤적과 높은 상관관계를 보였으며, 이는 최초로 신경 역학까지 포착한 모델임을 의미한다. **비교 실험 및 ablation** 저자들은 ResNet‑50, Inception‑V3, NASNet 등 대표적인 딥 모델과 Liao‑Poggio, LSTM 기반 재귀 모델을 비교했다. 대부분의 깊은 모델은 ImageNet 정확도는 75 % 이상이지만 Brain‑Score는 0.70 이하에 머물렀다. 반면 CORnet‑S는 얕은 구조에도 불구하고 ImageNet 정확도와 Brain‑Score 모두에서 경쟁력을 유지했다. 재귀 단계 수, 배치 정규화 공유 여부, 각 모듈의 채널 수 등을 변형한 ablation 실험에서도 재귀 단계가 늘어날수록 신경 예측이 개선되지만, 과도한 재귀는 성능 포화 혹은 감소를 초래한다는 점을 확인했다. **의의와 향후 과제** 본 연구는 “뇌와 유사한” 모델을 설계할 때 해부학적 매핑과 재귀 메커니즘이 핵심 설계 원칙임을 제시한다. 얕고 효율적인 구조는 해석 가능성을 높이고, 뇌‑기반 신경 과학 실험(예: 신경 자극, 행동 예측)과의 연계 연구에 유리하다. 향후 연구에서는 (1) 영역 간 피드백 연결을 추가해 장기적인 시간 스케일을 모델링, (2) 시각 피질 외의 다른 감각·운동 영역과의 통합 모델 구축, (3) 비전 외의 과제(예: 장면 이해, 언어-시각 통합)에서의 재귀 역할 검증 등을 통해 모델의 일반화와 생물학적 타당성을 확장할 수 있을 것이다.

뇌를 닮은 객체 인식을 위한 얕은 재귀 신경망 CORnet‑S

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기