CMIR‑NET: 원격탐사에서 교차모달 검색을 위한 딥러닝 통합 모델

본 논문은 팬크로매틱(PAN)‑다중스펙트럼 이미지와 고해상도 다중라벨 이미지‑음성 라벨 쌍을 대상으로, 두 모달리티 간의 의미 일치를 학습하는 CMIR‑NET이라는 딥러닝 프레임워크를 제안한다. 두 단계 학습(도메인별 분류 네트워크 → 공유 잠재공간 인코더‑디코더)과 정규화·재구성·분류 손실을 결합해, 서로 다른 분포를 가진 데이터들을 차원 축소 없이 실값 임베딩으로 통합한다. DSRSID와 UC‑Merced(음성 라벨 추가) 데이터셋에서 기존…

저자: Ushasi Chaudhuri, Biplab Banerjee, Avik Bhattacharya

CMIR‑NET: 원격탐사에서 교차모달 검색을 위한 딥러닝 통합 모델
본 논문은 원격탐사(RS) 분야에서 급증하는 다중소스 데이터와 제한된 의미 주석을 고려하여, 서로 다른 센서가 촬영한 이미지 간 혹은 이미지와 음성 라벨 간의 교차모달 검색(cross‑modal information retrieval) 문제를 해결하고자 한다. 연구 목표는 두 가지 시나리오를 다루는 것이다. 첫 번째는 팬크로매틱(PAN) 이미지와 다중스펙트럼(MS) 이미지가 1:1로 짝을 이루는 ‘paired single‑label’ 상황이며, 두 번째는 매우 고해상도(VHR) 다중라벨 이미지와 해당 라벨을 음성으로 변환한 데이터가 서로 짝을 이루지 않는 ‘unpaired multi‑label’ 상황이다. 기존의 단일모달 검색 방법은 모달리티 간 분포 차이를 무시하기 때문에 성능이 제한적이며, 최근의 몇몇 교차모달 연구(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기