멀티모달 활성 화자 감지와 가상 촬영 기술을 활용한 실시간 화상 회의 향상
본 논문은 4K 광시야 카메라, 깊이 센서, 마이크 배열을 결합한 멀티모달 시스템으로, AdaBoost 기반 활성 화자 감지(ASD)와 가상 촬영(VC) 알고리즘을 실시간으로 구현한다. 200 ms 이하의 지연으로 화자를 정확히 추적하고, 4K 영상을 크롭·줌만으로 가상 카메라 효과를 제공한다. 100개의 회의 데이터를 크라우드소싱으로 라벨링하여 학습했으며, 주관적 MOS 평가에서 인간 전문가 수준에 0.3점 차이로 근접함을 입증한다.
저자: Ross Cutler, Ramin Mehran, Sam Johnson
본 논문은 원격 화상 회의에서 사용자 경험을 크게 향상시킬 수 있는 ‘활성 화자 감지(ASD)’와 ‘가상 촬영(Virtual Cinematography, VC)’ 기술을 하나의 통합 시스템으로 구현한 연구이다. 기존 상업용 시스템은 PTZ(팬‑틸트‑줌) 카메라와 대형 2D 마이크 배열을 사용해 2 초 이상의 지연과 물리적 움직임으로 인한 방해 요소가 존재한다. 이를 극복하기 위해 저자들은 움직이는 부품이 전혀 없는 디지털 PTZ 방식을 채택하였다.
시스템은 세 가지 센서를 결합한다. 첫째, 3840×2160 해상도, 100° 수평 시야각을 가진 4K RGB 카메라가 전체 회의실을 광범위하게 촬영한다. 둘째, 512×424 해상도, 0.5–10 m 작동 범위의 깊이 카메라가 사람의 위치와 테이블 평면을 추정한다. 셋째, 215 mm 폭의 4채널 선형 마이크 배열이 16 kHz 샘플링으로 음성 신호를 수집한다. 모든 센서는 동일한 프레임 타임스탬프를 공유해 정확히 동기화된다.
오디오 처리에서는 기존 연구
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기