수중 이미지 향상을 위한 융합 적대적 네트워크와 공개 테스트 데이터셋

본 논문은 색상 왜곡·저대비·흐림 현상이 섞인 수중 영상을 두 입력(원본 이미지와 기존 융합 강화 이미지)을 이용해 동시에 처리하는 Fusion GAN(FGAN)을 제안한다. 새로운 공개 테스트 데이터셋 U45를 구축하고, RaGAN 기반 손실과 두 종류의 L1 손실을 결합해 색상 복원과 세부 디테일을 동시에 개선한다. 실험 결과, 기존 방법 대비 높은 UIQM·UCIQE 점수와 0.028 초의 초고속 추론 속도·적은 파라미터 수를 달성한다.

저자: Hanyu Li, Jingjing Li, Wei Wang

수중 이미지 향상을 위한 융합 적대적 네트워크와 공개 테스트 데이터셋
본 논문은 수중 영상의 색상 왜곡, 저대비, 흐림 현상을 동시에 해결하기 위해 ‘Fusion Generative Adversarial Network(FGAN)’라는 새로운 딥러닝 프레임워크를 제안하고, 이를 평가하기 위한 공개 테스트 데이터셋 ‘U45’를 구축하였다. 1. **연구 배경 및 필요성** 수중 영상은 물의 흡수·산란 특성으로 인해 색상 캐스트(특히 빨간색 소실), 낮은 대비, 그리고 흐림 현상이 복합적으로 나타난다. 기존 방법은 (① 비모델 기반: 픽셀 값 직접 조정), (② 물리 모델 기반: 파라미터 추정), (③ 딥러닝 기반)으로 크게 세 갈래로 나뉘지만, 각각 데이터셋·평가 지표가 상이해 객관적인 비교가 어려웠다. 또한, 공개된 대규모 테스트 데이터가 부족해 실제 적용 가능성을 검증하기 힘들었다. 2. **U45 데이터셋** 저자는 UGAN(6,128 이미지 쌍)과 240장의 실제 수중 사진을 바탕으로, 색상 캐스트(그린), 청색(블루), 흐림(헤이즈) 세 하위 집합으로 구분된 45장의 고품질 이미지 ‘U45’를 선정하였다. 각 이미지에는 원본(왜곡)과 ‘ground‑truth’(왜곡이 최소화된) 두 버전이 제공되어, 정량·정성 평가에 활용한다. 3. **FGAN 구조** - **입력**: 원본 수중 이미지 y와 기존 멀티스케일 융합 강화(FE) 방법으로 사전 처리된 이미지 x_fe를 동시에 입력한다. - **Generator**: 두 입력을 각각 ‘Basic Block’이라 불리는 모듈에 통과시킨 뒤, 특징 맵을 단순 합산(add)하여 디코더에 전달한다. Basic Block은 3×3, 5×5 등 다양한 커널을 병렬로 배치해 멀티스케일 정보를 포착하고, 1×1 컨볼루션으로 차원을 맞춘 뒤 잔차 연결을 적용해 학습 효율성을 높인다. 전체 파라미터는 2.85 M으로 경량화되었다. - **Discriminator**: 5개의 Conv 레이어와 Spectral Normalization을 적용한 70×70 PatchGAN 구조를 사용한다. Spectral Normalization은 가중치 스펙트럼을 제한해 훈련 안정성을 확보한다. 4. **손실 함수** FGAN은 세 가지 손실을 결합한다. - **RaGAN 손실**(Relativistic Average GAN): 실제 이미지가 가짜보다 더 현실적일 확률을 직접 예측하도록 설계돼, 전통 GAN보다 더 높은 이미지 품질을 유도한다. - **L_gt 손실**: L1 손실로 ground‑truth 이미지 x와 생성 결과 G(y) 사이의 차이를 최소화해 전체 색상·구조를 보존한다. λ_gt=10으로 가중한다. - **L_fe 손실**: L1 손실로 FE‑처리 이미지 x_fe와 G(y) 사이의 차이를 최소화해 사전 처리된 색상 보정 정보를 강화한다. λ_fe=0.5로 설정한다. 전체 손실 식은 L_FGAN = L_RaS_GAN^D + L_RaS_GAN^G + λ_gt·L_gt + λ_fe·L_fe 5. **실험 및 평가** - **정량 평가**: UCIQE와 UIQM 두 지표를 사용해 전체 45장에 대해 비교하였다. 표 1에 따르면, FGAN은 UIQM(5.10)에서 최고 점수를 기록했으며, UCIQE(0.59)에서도 경쟁력을 유지한다. 특히, 색상 캐스트가 심한 그린·블루 이미지에서 UIQM 점수가 크게 향상되었다. - **정성 평가**: Fig. 3의 시각적 비교에서 FGAN은 색상 왜곡을 최소화하고, 세부 디테일(예: 산호, 물고기 비늘)을 잘 보존한다. FE는 색상 보정이 과도해 붉은 색 편향이 발생하고, DPATN은 색상 왜곡이 심하지만 흐림 제거는 우수한 등, 각 기존 방법의 장·단점을 명확히 드러낸다. - **속도·파라미터**: Table II에 따르면, FGAN은 256×256 이미지당 0.0286 초(≈35 FPS)로 가장 빠르며, 파라미터 수는 2.85 M으로 가장 적다. 이는 실시간 적용 가능성을 크게 높인다. - **Ablation Study**: λ_fe 값을 0, 0.5, 1.0 등으로 변동시켜 L_fe 손실의 기여도를 분석했다. λ_fe=0.5일 때 UIQM과 UCIQE 모두 최적의 균형을 보였으며, Spectral Normalization을 제거하면 UIQM이 약 0.2~0.3 감소한다는 결과가 나왔다. 6. **응용 테스트** 향상된 이미지를 이용해 저수준 에지 검출 및 고수준 객체 검출을 수행했으며, 기존 방법 대비 검출 정확도와 재현율이 모두 향상되었다. 이는 FGAN이 단순 시각적 개선을 넘어 실제 비전 파이프라인에 직접적인 이점을 제공함을 의미한다. 7. **한계 및 향후 연구** - L_fe 손실은 사전 처리된 FE 이미지에 의존하므로, FE 단계에서 오류가 발생하면 전체 성능이 저하될 위험이 있다. - 현재는 두 입력만을 사용했으며, 물리 기반 전처리(예: 다중 스케일 다크 채널)와 결합한 다중 입력 구조가 향후 연구 방향이다. - 평가 지표가 인간 시각 인지와 완전히 일치하지 않음이 지적되었으며, 새로운 주관·객관 혼합 평가 체계가 필요하다. **결론** FGAN은 두 입력을 효율적으로 융합하고, RaGAN 기반 안정적인 학습과 두 종류의 L1 손실을 통해 색상 복원과 세부 보존을 동시에 달성한다. 공개된 U45 데이터셋은 향후 수중 이미지 향상 연구에 표준 벤치마크로 활용될 수 있다. 실험 결과는 높은 정량·정성 성능, 초고속 추론, 경량 파라미터를 입증하며, 실제 비전 응용에서도 유의미한 성능 향상을 보여준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기