ECG 스펙트로그램을 이용한 스트레스 분류에 비전 트랜스포머 적용
본 연구는 1초 길이의 ECG 신호를 단시간 푸리에 변환(STFT)으로 2차원 스펙트로그램으로 변환한 뒤, 이를 16×16 패치로 분할하여 사전 학습된 Vision Transformer(ViT)에 입력한다. LOSOCV 방식으로 WESAD와 RML 데이터셋에서 3‑class와 binary 스트레스 분류를 수행했으며, ViT가 1D CNN 및 ResNet‑18보다 높은 정확도를 달성함을 보였다. 특히 inter‑subject variability…
저자: Zeeshan Ahmad, Naimul Khan
본 논문은 스트레스 상태를 정확히 판별하기 위해 ECG 신호를 활용하는 새로운 방법론을 제안한다. 기존 연구들은 주로 전통적인 머신러닝 기법(HMM, SVM 등)이나 1차원 CNN 기반 딥러닝 모델에 의존했으며, 이들 방법은 handcrafted feature에 대한 의존도와 개인 간 신호 변동성(intersubject variability) 때문에 일반화에 한계를 보였다. 이를 극복하고자 저자들은 ECG 신호를 1초 단위로 슬라이싱한 뒤, Short‑Time Fourier Transform(STFT)으로 시간‑주파수 정보를 포함한 2차원 스펙트로그램을 생성한다. 스펙트로그램은 224×224 픽셀, 3채널(RGB) 형태로 변환되고, 16×16 크기의 패치로 나뉜다.
패치들은 선형 임베딩을 거쳐 위치 임베딩과 결합된 뒤, ImageNet‑21k 사전 학습된 Vision Transformer(ViT‑Base) 인코더에 입력된다. ViT는 Multi‑Head Self‑Attention과 MLP 블록을 교차적으로 쌓아 전역적인 패치 간 관계를 학습한다. 특히, 어텐션 메커니즘은 스펙트로그램 중앙에 집중된 고주파 성분에 높은 가중치를 부여함으로써, 개인별 센서 접촉 상태나 잡음 등으로 인한 변동성을 효과적으로 억제한다. 저자들은 이러한 어텐션 흐름을 시각화하여, CNN 기반 모델이 로컬 텍스처에만 의존하는 반면 ViT는 전역 구조를 포착함을 입증하였다.
실험은 두 개의 공개 데이터셋인 WESAD와 Ryerson Multimedia Lab(RML)을 대상으로 수행되었다. 각각의 피험자를 한 번에 테스트 셋으로 남기고 나머지 데이터를 학습에 활용하는 LOSOCV(Leave‑One‑Subject‑Out Cross‑Validation) 방식을 적용했다. 비교 모델로는 1D CNN과 ResNet‑18이 사용되었으며, 동일한 LOSOCV 설정에서 성능을 평가하였다. 결과는 다음과 같다. RML 데이터셋에서 3‑class 스트레스 분류 정확도 71.01%, WESAD 데이터셋에서 3‑class 정확도 76.7%, 그리고 WESAD에서 binary(스트레스/비스트레스) 분류 정확도 88.3%를 달성했다. 이는 기존 최고 성능 모델들을 모두 능가하는 수치이며, 특히 inter‑subject variability에 대한 강인성이 크게 향상된 것으로 판단된다.
학습 파라미터는 학습률 0.001, 모멘텀 0.9, 가중치 감쇠 0.005, 배치 사이즈 16으로 설정했으며, 사전 학습된 ViT를 fine‑tuning 함으로써 비교적 작은 ECG 데이터셋에서도 과적합 없이 안정적인 학습이 가능했다. 또한, 모델의 파라미터 수와 FLOPs를 분석한 결과, 기존 3D CNN이나 복합 멀티모달 모델에 비해 효율적인 연산량을 유지하면서도 높은 정확도를 제공한다는 장점이 있다.
본 연구는 ECG 신호를 이미지 형태로 변환해 Transformer 기반 모델에 적용함으로써, 의료 신호 처리 분야에서 새로운 패러다임을 제시한다. 향후 연구에서는 자기 지도 학습(self‑supervised pre‑training)이나 멀티모달 융합을 통해 더욱 일반화된 스트레스 인식 시스템을 구축할 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기