균형 잡힌 원샷 신경망 구조 최적화
본 논문은 기존 원샷 NAS가 초기에 후보 구조를 충분히 학습하지 못해 순위 상관관계가 낮고, 크기 차이에 따라 학습이 불균형하게 이루어지는 문제를 지적한다. 이를 해결하기 위해 아키텍처를 모델 크기에 비례해 샘플링함으로써 큰 모델에 더 많은 업데이트를 제공하는 “Balanced NAO”를 제안한다. 실험 결과, CIFAR‑10에서 2.60% 오류율, ImageNet 모바일 설정에서 74.4% Top‑1 정확도를 달성하며, 기존 원샷 NAS 대…
저자: Renqian Luo, Tao Qin, Enhong Chen
신경망 구조 탐색(NAS)은 인간이 설계하기 어려운 복잡한 모델을 자동으로 찾는 기술로, 최근 몇 년간 다양한 분야에서 뛰어난 성과를 보여왔다. 전통적인 NAS는 후보 구조마다 완전한 학습을 수행해 성능을 평가하기 때문에 계산 비용이 막대한다. 이를 완화하기 위해 제안된 원샷 NAS는 하나의 슈퍼넷에 모든 후보 구조를 포함하고, 가중치를 공유함으로써 후보를 빠르게 평가한다. 그러나 기존 원샷 NAS는 두 가지 심각한 문제를 안고 있다.
첫 번째 문제는 **순위 상관관계의 저하**이다. 원샷 훈련에서 얻은 성능 지표가 실제 전용 학습에서의 성능과 일관되지 않아, 탐색 알고리즘이 잘못된 방향으로 수렴한다. 논문은 50개의 무작위 아키텍처를 대상으로, 원샷 훈련을 5, 10, 20, 30, 50 epoch까지 진행한 뒤 전용 학습 성능과 비교하였다. 그 결과, 훈련 시간이 짧을수록 쌍별 정확도(pairwise accuracy)가 62%에 머물렀으며, 이는 무작위 추측에 가까운 수준이다. 훈련 시간이 늘어나면 정확도가 서서히 상승했지만, 실제 NAS에서는 수천 개의 후보를 짧은 시간 안에 샘플링해야 하므로 충분한 학습이 불가능하다.
두 번째 문제는 **학습 불균형**이다. 원샷 NAS는 일반적으로 후보를 균등하게 샘플링한다. 그러나 파라미터 수가 적은 작은 모델은 적은 업데이트만으로도 빠르게 수렴하는 반면, 파라미터가 많은 큰 모델은 동일한 업데이트 수로는 충분히 최적화되지 않는다. 실험에서는 다양한 크기의 아키텍처와 크기가 비슷한 아키텍처 두 집단을 각각 평가했는데, 크기가 다양한 집단에서는 쌍별 정확도가 62%에 불과했지만, 크기가 비슷한 집단에서는 73%까지 상승했다. 이는 크기 차이가 순위 상관관계를 크게 저해한다는 증거이다.
이러한 현상을 극복하기 위해 저자들은 **Balanced NAO**라는 새로운 학습 전략을 제안한다. 핵심 아이디어는 **모델 크기에 비례한 샘플링**이다. 즉, 파라미터 수가 큰 아키텍처일수록 샘플링 확률을 높여 슈퍼넷 내에서 더 많은 업데이트를 받게 한다. 이를 통해 각 아키텍처가 받는 학습량이 모델 크기에 비례하도록 조정한다.
Balanced NAO를 적용한 실험 결과는 다음과 같다. CIFAR‑10 데이터셋에서 5번의 독립 실행을 수행했을 때, 기존 ENAS, DARTS, NAO‑WS는 평균 테스트 오류율이 2.79%~3.07% 사이에 머물렀으며, 실행마다 약 0.2%~0.3%의 변동이 있었다. 반면 Balanced NAO는 2.60%라는 최저 오류율을 달성하고, 변동 폭이 크게 감소했다. ImageNet 모바일 설정에서도 Top‑1 정확도 74.4%를 기록했으며, 이는 같은 조건의 기존 원샷 NAS보다 현저히 높은 수치이다.
또한, 논문은 **안정성 평가**를 위해 각 기존 원샷 NAS 방법을 5번씩 재현했으며, 모두 원본 논문에서 보고된 최고 성능을 일부 재현했지만, 나머지 실행에서는 성능이 떨어지는 현상을 확인했다. 이는 원샷 NAS가 본질적으로 불안정함을 보여준다. Balanced NAO는 이러한 불안정을 크게 완화시켜, 탐색 과정에서 얻은 아키텍처가 전용 학습에서도 일관된 성능을 보이도록 만든다.
결론적으로, 원샷 NAS의 핵심 한계는 **학습량의 불균형**과 **순위 상관관계 약화**이며, 이를 모델 크기에 기반한 비례 샘플링으로 보정하면 탐색 효율성과 최종 모델 품질을 동시에 향상시킬 수 있다. 저자들은 코드와 체크포인트를 공개함으로써 재현성을 보장하고, 향후 NAS 연구에 있어 균형 잡힌 학습 전략이 표준이 될 가능성을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기