선형 판별 분석으로 ELM 네트워크의 가중치를 학습하는 새로운 방법

본 논문은 분류 작업을 수행하는 익스트림 러닝 머신(ELM)의 은닉층-출력층 가중치를 계산하는 기존 의사 역행렬 방법의 대안을 제시한다. 제안하는 방법은 선형 판별 분석(LDA)에 기반하며, 베이즈 관점에서 최적인 단일 점 추정치를 제공한다. MNIST 데이터셋 실험에서 동일한 네트워크 구조와 초기화 조건에서 제안 방법(LDA-ELM)이 기존 방법(PI-ELM)보다 평균 3.1% 낮은 오분류율을 보였다.

저자: Philip de Chazal, Jonathan Tapson, Andre van Schaik

이 논문은 고속 신경망 구조인 익스트림 러닝 머신(ELM)의 분류 성능을 향상시키기 위한 새로운 가중치 계산 방법론을 소개한다. ELM은 입력층-은닉층 가중치를 무작위로 설정한 후, 은닉층-출력층 가중치만 한 번의 계산으로 구하는 단일 패스 학습 알고리즘이다. 기존에는 은닉층 출력과 목표값 사이의 선형 방정식을 풀기 위해 무어-펜로즈 의사 역행렬(PI) 방법이 표준적으로 사용되어 왔다. 저자들은 분류 문제에 특화된 새로운 방법인 LDA-ELM을 제안한다. 이 방법은 선형 판별 분석(LDA)의 프레임워크를 차용한다. 먼저, 훈련 데이터의 은닉층 출력을 클래스별로 분할한다. 각 클래스의 데이터는 공동의 공분산 행렬(Σ)을 가지지만 서로 다른 평균 벡터(μ_n)를 갖는 다변량 정규분포로 가정한다. 최대 우도 추정법을 통해 이 파라미터(μ_n, Σ)를 추정한다. 베이즈 정리를 적용하여 새로운 입력(은닉층 출력 a)에 대한 클래스 사후 확률을 계산하면, 이는 a에 대한 선형 함수 형태로 도출된다. 이 선형 함수의 계수와 오프셋을 행렬 형태로 조합하면, 기존 ELM 가중치 행렬(W)에 해당하는 해를 얻을 수 있다. 이 해는 주어진 선형 모델 하에서 베이즈 최적의 단일 점 추정치이다. 제안 방법의 성능을 검증하기 위해 필기체 숫자 인식 벤치마크인 MNIST 데이터셋에 대해 포괄적인 실험을 수행했다. 동일한 무작위 입력 가중치와 네트워크 구조(팬아웃 1~20) 하에서 PI-ELM과 LDA-ELM을 200회 반복 비교했다. 결과는 모든 팬아웃 설정에서 LDA-ELM이 PI-ELM보다 우수한 성능(낮은 오분류율)을 보였으며, 평균 3.1%의 오류율 감소 효과가 있었다. 특히 팬아웃이 작을수록 상대적 향상도가 컸다. 계산 시간은 LDA-ELM이 약 12% 이내로 약간 더 소요되었으나, 성능 향상 대비 충분히 수용 가능한 수준이다. 추가로 LDA-ELM의 장점인 사후 확률 출력을 활용하여 여러 독립적으로 훈련된 네트워크의 결과를 융합(Ensemble)하는 실험을 진행했다. 단순히 각 네트워크의 출력 사후 확률을 평균하는 방식만으로도 오류율을 지속적으로 낮출 수 있었으며, 20개의 네트워크를 융합했을 때 단일 네트워크 대약 19%의 상대적 오류 감소(2.08% -> 1.69%)를 달성했다. 논문은 LDA-ELM이 기존 PI-ELM에 비해 이론적으로 타당하고, 실험적으로 우수하며, 앙상블에 유리한 구조를 가진 실용적인 대안임을 결론지으며, 다른 공개 데이터셋에 대한 추가 검증을 향후 과제로 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기