거리 변환 회귀를 활용한 공간 인식 딥 세그멘테이션 강화

논문은 딥러닝 기반 픽셀‑와이즈 분류가 경계 흐림과 형태 왜곡을 일으키는 근본 원인을 레이블 표현 자체의 공간적 한계에 두고, 이를 보완하기 위한 새로운 정규화 기법을 제시한다. 기존의 Fully Convolutional Network(FCN)들은 각 픽셀을 독립적인 클래스 확률로 예측하지만, 이러한 이산적 레이블은 주변 클래스와의 거리 정보를 전혀 제공하지 않는다. 저자들은 이러한 문제를 해결하기 위해 레이블 마스크에 Signed Distance Transform(SDT)을 적용한다. SDT는 전경 픽셀은 가장 가까운 배경 픽셀까지의 유클리드 거리를 양수로, 배경 픽셀은 전경까지의 거리를 음수로 부여해 연속적인 거리 맵을 만든다. 이 거리 맵을 각 클래스별로 계산하고, Maurer et al.(2003)의 선형 시간 알고리즘을 이용해 정확히 구한다. 이후 전체 거리 값을 사전에 정의한 클리핑 값으로 제한하고, ‑1~1 구간으로 정규화한다. 정규화 과정은 hardtanh 활성화와 유사한 효과를 주어 네트워크가 출력 범위를 자연스럽게 맞추게 만든다. 다중 과제 학습 프레임워크는 두 개의 병렬 목표를 동시에 최적화한다. 첫 번째 목표는 기존의 픽셀‑와이즈 클래스 확률을 예측하는 교차 엔트로피 손실(NLL)이며, 두 번째 목표는 정규화된 SDT를 회귀하는 L1 손실이다. 네트워크 구조는 크게 변형되지 않는다. 기존 FCN의 마지막 피처맵을 그대로 사용해 거리 예측 헤드를 두고, 이 예측값을 hardtanh을 통과시킨 뒤, 원래 피처맵과 concatenate한다. 이어지는 1×1 컨볼루션을 통해 결합된 피처를 소프트맥스 레이어에 전달함으로써 최종 클래스 확률을 산출한다. 손실 함수는 L = NLL + λ·L1 형태이며, λ는 거리 회귀가 전체 학습에 미치는 영향을 조절한다. 실험에서는 λ=0.1~0.5 사이의 값을 사용했으며, 데이터셋마다 최적값을 교차 검증으로 찾았다. 실험은 네 가지 주요 데이터셋에서 수행되었다. 첫 번째는 ISPRS 2D Semantic Labeling 데이터셋으로, 고해상도 항공 이미지에서 건물, 도로, 식생 등을 구분한다. 두 번째는 INRIA Aerial Image Labeling으로 건물 풋프린트 추출에 초점을 맞춘다. 세 번째는 SUN RGB‑D 데이터셋으로 실내 장면의 37개 클래스를 다룬다. 마지막으로 Data Fusion Contest 2015의 대규모 항공 이미지가 사용되었다. 각 데이터셋에서 SegNet과 PSPNet 두 가지 베이스라인 아키텍처에 제안 방법을 적용했으며, mIoU, Boundary F1, 그리고 전체 픽셀 정확도 등 다양한 지표를 측정했다. 결과는 모든 경우에서 기존 베이스라인 대비 평균 2~4%의 mIoU 향상을 보였고, 특히 경계 정확도를 나타내는 BFScore에서 5~7%의 개선을 기록했다. 시각적으로도 건물 외곽선이 더 선명해지고, 작은 객체(차량, 가구)의 연결성이 유지되는 것을 확인할 수 있었다. 본 접근법의 장점은 크게 세 가지이다. 첫째, 기존 네트워크 구조를 거의 그대로 유지하면서 손쉽게 적용할 수 있다. 둘째, 거리 변환이라는 연속적인 레이블을 이용해 공간 정보를 손실 함수에 직접 주입함으로써, 별도의 그래프 기반 후처리(CRF 등) 없이도 경계와 형태를 개선한다. 셋째, 다양한 도메인과 아키텍처에 일반화 가능하다는 점이다. 반면 한계점으로는 거리 클리핑으로 인해 장거리 의존성을 완전히 반영하지 못할 수 있고, λ 하이퍼파라미터 선택이 데이터셋마다 필요하다는 점이 있다. 향후 연구에서는 거리 변환을 다중 스케일로 확장하거나, 학습 중 동적으로 클리핑 범위를 조정하는 방법을 탐색할 수 있다. 또한, 인스턴스 분할이나 3D 볼륨 데이터에 적용해 보는 것도 흥미로운 방향이다.

거리 변환 회귀를 활용한 공간 인식 딥 세그멘테이션 강화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기