구면 영역 최적화를 이용한 전방위 이미지 시각주의 예측

본 연구는 가상현실(VR) 및 증강현실(AR) 환경에서 사용되는 전방위 이미지(Omnidirectional Image, OMI)의 시각주의 예측을 목표로 한다. 전통적인 2D 이미지용 saliency 모델은 ERP 형태의 전방위 이미지에 직접 적용하면 위도에 따라 심각한 기하학적 왜곡이 발생한다. 이를 해결하기 위해 저자들은 두 가지 서로 보완적인 접근법을 제안한다. 첫 번째 접근법은 ERP 기반이다. ERP 이미지는 2D 형태이지만, 위도에 따라 왜곡이 크게 달라진다. 저자들은 ERP 이미지를 경도 방향으로 45° 간격, 총 8개의 회전된 버전으로 생성한다. 각 회전 이미지에서 중간 영역(위도 중심)과 상·하단 가장자리 영역을 구분한다. 중간 영역은 SAM‑ResNet(전통적인 2D saliency 모델)으로 각 회전마다 saliency를 예측하고, 픽셀별 최대값을 취해 하나의 통합 map을 만든다. 상·하단 가장자리 영역은 CMP의 상·하면을 이용해 재투영하고, ERP에 다시 매핑한다. 이때 두 영역의 최대값을 동일하게 맞추기 위해 스케일링을 적용한다. 두 번째 접근법은 CMP 기반이다. CMP는 구면을 6개의 정사각형 면으로 근사하므로 위도에 따른 왜곡이 거의 없으며, 각 면에 대해 BMS(Boolean Map Saliency) 모델을 적용한다. 그러나 면 경계에서 발생하는 불연속성을 줄이기 위해 5가지 3축 회전(0°, 45° 조합)으로 구면을 회전시킨 뒤, 각 회전에서 얻은 saliency를 ERP 형태로 재투영하고 평균을 취한다. 이는 다양한 시점에서의 시각주의 정보를 보강한다. 두 방법에서 얻은 saliency map은 먼저 최대값을 동일하게 맞춘 뒤 평균화한다. 여기서 중요한 추가 단계가 equator bias이다. 기존 주관적 실험 데이터(헤드·아이 움직임)를 기반으로 위도별 평균 시각주의 분포를 추출하고, 이를 가중치(α=0.7)로 기존 saliency에 곱해 적도 부근에 시청자가 집중하는 경향을 반영한다. 마지막으로 구면 영역에서의 최적화 기반 스무딩을 수행한다. 구면 표면에 균일하게 샘플링된 포인트를 마스크로 남기고, 이들 포인트에 대해 4‑neighbour 라플라시안 정규화와 원본 saliency와의 차이를 동시에 최소화하는 목적함수를 최적화한다. 샘플링 밀도 K는 10, 100, 1000으로 실험했으며, K=100 이상에서 KLD가 0.39, NSS가 0.96 등 주요 지표가 크게 향상되었다. 실험은 두 개의 공개 OMI 데이터셋(

구면 영역 최적화를 이용한 전방위 이미지 시각주의 예측

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기