협업형 시계열 특성 생성으로 사용자 간 가속도 센서 활동 인식 강화
본 논문은 착용형 IMU 센서 기반 인간 활동 인식(HAR)에서 사용자 간 변동성을 극복하기 위해, Transformer 기반 자동회귀 생성기와 비평가(critic) 없는 강화학습 알고리즘인 Group‑Relative Policy Optimization(GRPO)을 결합한 CTFG 프레임워크를 제안한다. 토큰 단위로 순차적으로 특징을 생성하고, 클래스 구분, 사용자 불변성, 시간 충실도를 포함한 삼중 보상으로 전체 시퀀스를 평가한다. DSADS…
저자: Xiaozhou Ye, Feng Jiang, Zihan Wang
본 논문은 착용형 관성 측정 장치(IMU) 기반 인간 활동 인식(HAR)에서 사용자 간 변동성으로 인한 성능 저하 문제를 해결하고자, 특징 추출 과정을 순차적 생성 프로세스로 재구성한 새로운 프레임워크 CTFG(Collaborative Temporal Feature Generation)를 제안한다. 기존 도메인 일반화(Domain Generalization) 연구는 주로 정적 특징 벡터에 초점을 맞추어 시간적 의존성을 충분히 활용하지 못하거나, 목표 도메인에 대한 라벨이 필요하다는 실용성 문제를 안고 있었다. CTFG는 이러한 한계를 넘어, (1) Transformer 기반 자동회귀 디코더가 입력 시계열을 토큰 단위로 점진적으로 변환하고, (2) 비평가(critic) 없는 강화학습 알고리즘인 Group‑Relative Policy Optimization(GRPO)을 통해 정책을 직접 최적화한다.
### 1) 문제 정의 및 MDP 설계
K명의 소스 사용자 각각에 대해 라벨이 있는 시계열 데이터 D_k = {(x_i^k, y_i^k)}를 가지고 있다. 목표는 이 데이터만으로 특징 매핑 f_θ와 분류기 g_φ를 학습해, 전혀 보지 못한 타깃 사용자들의 분포 Q_m에 대해 일반화된 성능을 달성하는 것이다. CTFG는 특징 추출을 MDP로 모델링한다. 상태 s_t는 현재까지 생성된 토큰 시퀀스와 인코더 출력이며, 행동 a_t는 다음 토큰을 선택하는 것이다. 에피소드가 종료될 때(모든 토큰이 생성된 후) 전체 시퀀스에 대해 보상이 부여된다.
### 2) 자동회귀 Transformer Generator
입력 시계열 x ∈ ℝ^{L×d}는 먼저 Positional Encoding과 함께 Transformer Encoder에 통과해 컨텍스트 벡터 C를 만든다. Decoder는 causal self‑attention을 이용해 이전 토큰들을, cross‑attention을 이용해 C를 참조한다. 토큰은 고정 차원의 임베딩이며, 전체 토큰 수 T는 하이퍼파라미터로 설정한다. 초기 토큰은 전역적인 주기성(예: 보행 주기) 정보를, 후속 토큰은 미세한 위상 전이와 관절 간 협조 정보를 캡처한다.
### 3) 삼중 보상 설계
- **클래스 구분 보상 (R_cls)**: 생성된 특징 z = concat(tokens)를 사전 학습된 로지스틱 회귀에 입력해 얻은 교차 엔트로피 손실 L_ce를 사용한다. R_cls = -L_ce.
- **사용자 불변성 보상 (R_inv)**: 동일 활동 라벨을 가진 서로 다른 사용자 샘플들의 특징 분포를 MMD 혹은 도메인 어드버설 손실로 최소화한다. R_inv = -MMD(z_i^u, z_j^v).
- **시간 충실도 보상 (R_temp)**: Decoder가 생성한 특징을 다시 Encoder 출력으로 복원하도록 L2 재구성 손실 L_rec을 적용한다. R_temp = -L_rec.
전체 보상 R = λ1·R_cls + λ2·R_inv + λ3·R_temp이며, λ는 경험적으로 설정한다.
### 4) Group‑Relative Policy Optimization (GRPO)
전통 PPO는 가치 함수 V(s) 를 학습해 Advantage A_t = R_t - V(s_t) 를 계산한다. 그러나 사용자 간 분포 차이로 인해 V(s) 가 편향될 위험이 있다. GRPO는 같은 입력 x에 대해 N개의 후보 시퀀스 {z^1,…,z^N}를 샘플링하고, 각 시퀀스에 대해 R^i를 계산한다. 평균 μ_R와 표준편차 σ_R를 구해 정규화된 이점 Ā^i = (R^i - μ_R)/σ_R 를 얻는다. 정책 파라미터 θ는 클리핑된 확률 비율 r(θ)와 Ā^i 를 사용해 PPO‑style 목표를 최적화한다. 이 방식은 절대 보상 스케일에 무관하게 안정적인 그라디언트를 제공한다. 논문에서는 정리 1을 통해 그룹 상대 이점이 편향이 없고, 보상 스케일 변동에 대해 불변임을 증명한다.
### 5) 실험 및 결과
- **데이터셋**: DSADS(8활동, 19사용자)와 PAMAP2(12활동, 9사용자). 각 데이터셋을 5‑fold 교차 사용자 방식으로 평가.
- **베이스라인**: DIVERSIFY, GADPN, MSDGM, ConvTransformer 등 최신 도메인 일반화 및 Transformer 기반 모델.
- **성능**: CTFG는 DSADS에서 88.53 % (베이스라인 최고 84.7 %), PAMAP2에서 75.22 % (베이스라인 최고 71.3 %)를 기록.
- **수렴 속도**: 동일 에폭 수 대비 30 % 적은 에폭에서 최적점 도달, 학습 곡선의 변동성 감소.
- **Ablation**: (a) PPO + GRPO 없이 정책만 사용 → 학습 불안정, 정확도 3‑4 %p 감소. (b) 시간 충실도 보상 제거 → 특징이 과도 압축돼 교차 사용자 정확도 6 %p 이하. (c) 토큰 수를 4→12로 증가 → 초기 정확도 상승하지만 과도한 토큰은 오버피팅 위험.
### 6) 논의 및 한계
CTFG는 순차적 토큰 생성으로 인간 동작의 계층적 시간 구조를 자연스럽게 모델링하고, 비평가 없는 GRPO를 통해 사용자 간 분포 편향을 효과적으로 보정한다. 그러나 후보 시퀀스 샘플링으로 인한 메모리·시간 비용이 증가하고, 토큰 수와 샘플링 수에 대한 하이퍼파라미터 선택이 성능에 큰 영향을 미친다. 또한 현재는 단일 모달(IMU)만을 다루며, 멀티모달(심박, 온도 등) 통합에 대한 확장은 추후 연구 과제로 남는다.
### 7) 결론
CTFG는 “특징 추출 = 순차적 생성”이라는 새로운 관점을 제시하고, GRPO 기반 비평가 없는 강화학습으로 교차 사용자 HAR에서 기존 최첨단을 능가하는 일반화 성능을 달성한다. 향후 연구에서는 샘플 효율성을 높이는 온‑디맨드 후보 생성, 멀티모달 센서 융합, 그리고 실제 모바일 디바이스에서의 경량화 구현을 목표로 할 예정이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기