웨어러블 카메라 기반 치매 환자 일상 활동 자동 인덱싱
본 논문은 어깨에 착용한 와이어리스 카메라로 촬영한 일상 영상을, 움직임 기반 시간 구간 분할과 색·위치·동작 특징을 결합한 설명 공간을 이용해 히든 마코프 모델(HMM)으로 활동을 인덱싱하는 방법을 제안한다. 초기 실험에서 사무실 이동, 주방 이동 등 7가지 활동 중 일부는 높은 정밀도와 재현율을 보였으며, 향후 객체·음성·세밀한 행동 특징을 추가해 정확도를 높일 계획이다.
저자: Svebor Karaman (LaBRI), Jenny Benois-Pineau (LaBRI), Remi Megret (IMS)
본 연구는 치매 환자의 일상 행동을 객관적으로 기록하고 자동으로 인덱싱하기 위한 시스템을 제안한다. 첫 번째 단계에서는 어깨에 부착한 와이어리스 카메라(150° 어안 렌즈)를 사용해 환자의 시점에 가까운 영상을 수집한다. 영상은 하나의 연속된 샷으로 저장되며, 환자의 이동에 따라 강한 카메라 흔들림과 조명 변화가 빈번히 발생한다. 이러한 특성을 활용해 전역 에고모션을 추정하는 CMD(Camera Motion Detection) 알고리즘을 적용하고, 1차 완전 아핀 모델의 파라미터를 얻는다.
시간 구간 분할은 움직임 기반으로 수행된다. 이미지 코너의 궤적이 사전에 정의된 임계값(t = 0.2·이미지 폭)을 초과하면 “컷”을 감지하고 현재 세그먼트를 종료한다. 각 세그먼트는 최소 5프레임을 포함하도록 보장되며, 중앙 프레임을 키프레임으로 선택한다.
설명 공간은 네 가지 서브피처로 구성된다. 첫째, 최근 N₍c₎ 프레임(최대 10초) 동안 발생한 컷 수를 히스토그램(Hc)으로 정량화해 동작 강도를 나타낸다. 둘째, 아핀 변환의 평행 이동 파라미터 에너지(에너지 히스토그램 Htpe)를 로그 스케일로 양자화해 저속·고속 움직임을 구분한다. 셋째, SURF 기반 Bag‑of‑Features와 3‑레벨 트리 양자화를 이용해 1111 차원의 시각 단어 히스토그램을 만든 뒤 1‑NN 분류기로 방 위치를 추정하고, 방별 확률 히스토그램(Hloc)을 세그먼트 수준에서 구축한다. 넷째, MPEG‑7 색 레이아웃 디스크립터(CLD)를 키프레임에 적용해 색 분포와 공간 정보를 요약한다. 이 네 가지 피처는 “조기 융합” 방식으로 하나의 관측 벡터에 연결된다.
활동 인덱싱은 두 단계 계층형 히든 마코프 모델(HMM)로 수행된다. 상위 Activity HMM은 의미론적 활동(예: 컴퓨터 작업, 커피 만들기, 방 이동 등) 상태를 나타내며, 각 활동은 m개의 하위 엘리먼트 HMM(초기 루프 확률 0.9)으로 세분화된다. 엘리먼트 HMM의 관측 확률은 가우시안 혼합 모델(GMM)으로 모델링되고, Baum‑Welch 알고리즘을 통해 학습된다. 전체 데이터는 3974 프레임(학습)과 310 세그먼트(테스트)로 구성되며, 7가지 활동이 라벨링되었다.
실험 결과, “홈 오피스 이동”은 정밀도 0.94, 재현율 0.81, F‑Score 0.87 등 높은 성능을 보였지만, “주방 이동”은 F‑Score 0.47에 그쳤다. 이는 동일한 방 안에서 유사한 색·동작 패턴을 보이는 활동을 구분하기 위한 설명 공간이 부족함을 의미한다. 또한, 컴퓨터 작업은 세그먼트가 2개에 불과해 시간적 세분화가 미흡했다는 점이 지적된다.
저자들은 향후 객체 검출, 오디오 분석, 손동작 인식 등 추가적인 피처를 도입해 설명 공간을 풍부하게 하고, 다양한 가정 환경에 대한 일반화 모델을 구축하기 위한 대규모 학습 프로토콜을 설계할 계획이다. 본 논문은 착용형 카메라 영상에 특화된 움직임 기반 세그멘테이션과 다중 특징 융합을 통해 HMM 기반 활동 인덱싱을 구현한 최초 사례 중 하나이며, 치매 환자 모니터링 시스템에 실용적인 데이터 처리 파이프라인을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기