목소리와 공간 융합을 통한 소 마운팅 자세 추정

FSMC‑Pose는 소의 마운팅 행동을 실시간으로 정확히 파악하기 위해, 주파수‑공간 융합 백본(CattleMountNet)과 다중 스케일 자체 보정 헤드(SC2Head)를 결합한 경량 상향식 프레임워크이다. 주파수‑공간 강화 블록(SFEBlock)과 수용 영역 집합 블록(RABlock)으로 배경 잡음을 억제하고 다양한 크기의 관절 정보를 포착하며, 공간‑채널 자체 보정 메커니즘으로 상호 겹침에 의한 구조적 오류를 최소화한다. 새로 구축한 MO…

저자: Fangjing Li, Zhihai Wang, Xinxin Ding

목소리와 공간 융합을 통한 소 마운팅 자세 추정
본 논문은 낙농업에서 중요한 행동 지표인 소의 마운팅 자세를 자동으로 인식·추정하기 위한 새로운 프레임워크인 FSMC‑Pose를 제안한다. 기존의 인간 중심 포즈 추정 모델을 동물에 그대로 적용하면 배경 잡음, 저대비, 개체 간 겹침 등으로 인해 정확도가 급격히 떨어지고, 연산 비용이 높아 실시간 현장 적용이 어려웠다. 이를 해결하기 위해 저자들은 두 가지 주요 기술적 기여를 제시한다. 첫 번째는 경량화된 주파수‑공간 융합 백본인 CattleMountNet이다. 이 백본은 기본적인 인버티드 레지듀얼 구조 위에 두 개의 특수 블록을 삽입한다. Spatial Frequency Enhancement Block(SFEBlock)은 입력 피처를 웨이브렛 변환으로 주파수 영역으로 분해한 뒤, 각 서브밴드에 깊이별(depthwise) 컨볼루션을 적용하고 역변환(IWT)으로 복원한다. 웨이브렛은 저주파와 고주파 정보를 동시에 포착해 배경과 대상 소를 효과적으로 구분한다. 이후 5×5 고정 가우시안 커널로 부드럽게 만든 뒤, 1×1 및 3×3 컨볼루션을 통해 공간적 세부 정보를 강화한다. 이 과정은 연산량을 크게 늘리지 않으면서도 소의 윤곽을 선명하게 만든다. 두 번째 블록인 Receptive Aggregation Block(RABlock)은 서로 다른 팽창 비율(1, 3, 5)을 갖는 병렬 깊이별 컨볼루션을 사용해 다중 스케일 수용 영역을 동시에 학습한다. 이는 작은 발굽부터 넓은 몸통까지 다양한 크기의 키포인트를 균형 있게 처리하도록 돕는다. 두 블록 모두 잔차 연결과 레이어 정규화(LayerNorm)를 적용해 학습 안정성을 확보한다. 두 번째 기여는 다중 스케일 자체 보정 헤드인 SC2Head이다. 마운팅 장면에서는 개체 간 겹침이 빈번해 동일 부위 키포인트가 서로 혼동되는 문제가 발생한다. SC2Head는 Spatial Attention Branch(SAB), Channel Attention Branch(CAB), Self‑Calibration Branch(SCB) 세 가지 서브모듈로 구성된다. SAB는 채널 차원을 따라 평균·최대 풀링을 수행해 두 종류의 시멘틱 맵을 결합하고, 3×3 시그모이드 컨볼루션으로 공간 주의 가중치를 생성한다. CAB는 전역 평균·최대 풀링을 통해 채널별 중요도를 추출하고, 1×1 컨볼루션으로 재조정한다. SCB는 SAB와 CAB의 결합 결과와 원본 피처를 원소별 곱한 뒤, 1×1 컨볼루션을 통해 최종 피처를 보정한다. 이 구조는 특히 겹쳐 보이는 소들 사이에서 동일 부위 키포인트가 혼동되는 현상을 완화한다. 데이터 측면에서 저자들은 실제 대형 낙농 농장에서 촬영한 MOUNT‑Cattle 데이터셋을 구축했다. 총 1,176개의 마운팅 장면을 수집·정제했으며, COCO 형식으로 16개의 키포인트(머리‑목, 척추, 앞·뒤다리 관절 등)를 라벨링했다. 기존 공개 데이터인 NWAFU‑Cattle과 결합해 훈련·검증·테스트를 8:1:1 비율로 분할했으며, 키포인트 가시성을 ‘완전 가시’, ‘부분 가시’, ‘가시 안 됨’ 세 단계로 구분했다. 실험에서는 FSMC‑Pose를 기존 최강 모델인 RTMPose와 비교했다. FSMC‑Pose는 AP 89.0% (RTMPose 대비 +1.4%), AP75 92.5% (+3.0%), AR 89.9% (+0.9%), AR75 97.7% (+0.4%)를 기록했으며, 파라미터는 2.698 M(80% 감소), FLOPs는 4.4109 GFLOPS(약 30% 절감)였다. 또한 1080Ti GPU에서 45 FPS 이상의 실시간 추론 속도를 달성해 현장 적용 가능성을 입증했다. 정성적 분석에서도 복잡한 배경, 저대비 조명, 개체 간 겹침이 심한 장면에서도 정확히 관절을 복원하는 모습을 확인할 수 있었다. 결론적으로, FSMC‑Pose는 주파수‑공간 특성을 활용한 경량 백본과 다중 스케일 자체 보정 헤드를 통해 소 마운팅 자세 추정이라는 특수한 농업 문제를 효과적으로 해결한다. 이는 기존 인간 중심 포즈 추정 모델이 갖는 한계를 극복하고, 실시간으로 대규모 농장에 적용 가능한 기술적 토대를 제공한다. 향후 연구에서는 시계열 정보를 결합한 동작 인식, 다른 가축 종에 대한 일반화, 그리고 현장 임베디드 디바이스에 최적화된 구현 등을 통해 실용성을 더욱 확대할 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기