선형 판별 분석으로 ELM 네트워크의 가중치를 학습하는 새로운 방법

이 논문은 고속 신경망 구조인 익스트림 러닝 머신(ELM)의 분류 성능을 향상시키기 위한 새로운 가중치 계산 방법론을 소개한다. ELM은 입력층-은닉층 가중치를 무작위로 설정한 후, 은닉층-출력층 가중치만 한 번의 계산으로 구하는 단일 패스 학습 알고리즘이다. 기존에는 은닉층 출력과 목표값 사이의 선형 방정식을 풀기 위해 무어-펜로즈 의사 역행렬(PI) 방법이 표준적으로 사용되어 왔다. 저자들은 분류 문제에 특화된 새로운 방법인 LDA-ELM을 제안한다. 이 방법은 선형 판별 분석(LDA)의 프레임워크를 차용한다. 먼저, 훈련 데이터의 은닉층 출력을 클래스별로 분할한다. 각 클래스의 데이터는 공동의 공분산 행렬(Σ)을 가지지만 서로 다른 평균 벡터(μ_n)를 갖는 다변량 정규분포로 가정한다. 최대 우도 추정법을 통해 이 파라미터(μ_n, Σ)를 추정한다. 베이즈 정리를 적용하여 새로운 입력(은닉층 출력 a)에 대한 클래스 사후 확률을 계산하면, 이는 a에 대한 선형 함수 형태로 도출된다. 이 선형 함수의 계수와 오프셋을 행렬 형태로 조합하면, 기존 ELM 가중치 행렬(W)에 해당하는 해를 얻을 수 있다. 이 해는 주어진 선형 모델 하에서 베이즈 최적의 단일 점 추정치이다. 제안 방법의 성능을 검증하기 위해 필기체 숫자 인식 벤치마크인 MNIST 데이터셋에 대해 포괄적인 실험을 수행했다. 동일한 무작위 입력 가중치와 네트워크 구조(팬아웃 1~20) 하에서 PI-ELM과 LDA-ELM을 200회 반복 비교했다. 결과는 모든 팬아웃 설정에서 LDA-ELM이 PI-ELM보다 우수한 성능(낮은 오분류율)을 보였으며, 평균 3.1%의 오류율 감소 효과가 있었다. 특히 팬아웃이 작을수록 상대적 향상도가 컸다. 계산 시간은 LDA-ELM이 약 12% 이내로 약간 더 소요되었으나, 성능 향상 대비 충분히 수용 가능한 수준이다. 추가로 LDA-ELM의 장점인 사후 확률 출력을 활용하여 여러 독립적으로 훈련된 네트워크의 결과를 융합(Ensemble)하는 실험을 진행했다. 단순히 각 네트워크의 출력 사후 확률을 평균하는 방식만으로도 오류율을 지속적으로 낮출 수 있었으며, 20개의 네트워크를 융합했을 때 단일 네트워크 대약 19%의 상대적 오류 감소(2.08% -> 1.69%)를 달성했다. 논문은 LDA-ELM이 기존 PI-ELM에 비해 이론적으로 타당하고, 실험적으로 우수하며, 앙상블에 유리한 구조를 가진 실용적인 대안임을 결론지으며, 다른 공개 데이터셋에 대한 추가 검증을 향후 과제로 제시한다.

선형 판별 분석으로 ELM 네트워크의 가중치를 학습하는 새로운 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기