이미지 회전 각도 추정, 원형 인식 방법 비교

본 논문은 이미지 회전 각도 추정이라는 전처리 작업을 대상으로, 각도가 0°와 360° 사이에서 순환하는 원형 특성 때문에 발생하는 경계 불연속성을 해결하기 위한 다섯 가지 원형‑인식 방법을 체계적으로 비교한다. 연구자는 직접 각도 회귀(D A), 각도 분류(CLS), 단위벡터 회귀(UV), 위상 이동 코더(PSC), 원형 가우시안 분포(CGD)라는 다섯 가지 접근법을 정의하고, 각각에 대해 손실 함수와 디코딩 절차를 상세히 기술한다. 직접 회귀는 원형 MAE 손실을 사용해 스칼라 출력의 경계 문제를 완화하고, 단위벡터 회귀는 cos·sin 두 차원으로 각도를 표현해 완전한 연속성을 보장한다. 위상 이동 코더는 M개의 코사인 파라미터를 이용해 주기적인 신호를 학습하고, 디코딩 시 arctan 연산으로 각도를 복원한다. 분류 방식은 360개의 1° 빈을 사용해 각도별 확률을 예측하고, 표준 교차 엔트로피 손실로 학습한다. 원형 가우시안 분포는 각도에 대한 확률 분포를 직접 모델링해 KL‑다이버전스 손실로 학습하며, σ=6°의 가우시안 라벨링으로 부드러운 라벨을 제공한다. 실험은 총 16개의 최신 백본(순수 트랜스포머, 순수 CNN, 하이브리드, 상태공간 모델, 포컬 네트 등)과 위의 다섯 가지 헤드를 조합해 80개의 모델을 구축하고, 각 모델을 5번씩 다른 시드로 학습시켜 평균 MAE를 측정한다. 주요 데이터셋은 회전 보정용 DRC‑D(훈련 1,474장, 테스트 535장)와 대규모 COCO 2014/2017이다. DRC‑D 실험에서 가장 좋은 결과는 EfficientViT‑B3 백본에 분류 헤드를 붙였을 때 1.23° MAE를 기록했으며, MambaOut Base에 CGD를 적용했을 때 1.24° MAE로 거의 동등하면서도 다양한 백본에서 일관된 성능을 보였다. 분류는 특정 백본에서 최고 정확도를 내지만, 다른 백본에서는 학습이 불안정해 손실이 발산하거나 수렴이 지연되는 현상이 관찰되었다. 반면 CGD는 확률적 출력과 KL 손실 덕분에 전반적인 견고성을 확보했으며, 백본 규모와 무관하게 비슷한 수준의 MAE를 유지했다. COCO 2014 테스트에서는 최상위 조합(분류‑EfficientViT‑B3)이 3.71° MAE를 달성해 기존 연구(예: Fischer et al. 20.97°, Maji & Bose 8.38°)보다 크게 개선되었다. COCO 2017에서는 동일 방법이 2.84° MAE를 기록, 데이터 양이 늘어날수록 모델의 일반화 능력이 향상됨을 보여준다. 연구자는 또한 이미지 회전 전처리 단계에서 회전 사각형 크롭 방식을 선택해, 회전 후 발생하는 검은 테두리와 같은 인위적 아티팩트를 최소화함으로써 네트워크가 실제 이미지 내용에 기반한 회전 신호를 학습하도록 설계했다. 전이 학습은 ImageNet‑pretrained 가중치를 사용했으며, AdamW 옵티마이저와 학습률 스케줄링, 조기 종료 등을 적용해 효율적인 파인튜닝을 수행했다. 결론적으로, 원형 데이터를 다루는 경우 출력 표현과 손실 설계가 모델의 안정성과 정확도에 결정적인 영향을 미친다. 확률적 원형 가우시안 분포는 다양한 백본에서 일관된 성능을 제공해 실무 적용에 유리하고, 분류는 최적 백본과 결합될 때 최고의 정확도를 달성한다. 이 연구는 회전 추정뿐 아니라 포즈 추정, 방향성 객체 검출 등 원형 변수와 관련된 다양한 비전 과제에 대한 실용적인 가이드라인을 제시한다.

이미지 회전 각도 추정, 원형 인식 방법 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기