다양한 엣지 가이던스로 강화된 레이아웃 기반 원격탐사 이미지 생성 RSGen

RSGen은 기존 레이아웃‑투‑이미지(L2I) 모델에 엣지 맵을 추가 조건으로 결합해, 바운딩 박스 내 픽셀 수준의 정밀 제어와 높은 구조적 다양성을 동시에 달성한다. Edge2Edge 모듈이 다양한 엣지 프라이어를 생성하고, FGControl 모듈이 고주파 구조 정보를 공간‑게이트 방식으로 주입함으로써, 생성된 객체가 레이아웃에 정확히 맞춰지면서도 데이터 증강 효과가 크게 향상된다.

저자: Xianbao Hou, Yonghao He, Zeyd Boukhers

다양한 엣지 가이던스로 강화된 레이아웃 기반 원격탐사 이미지 생성 RSGen
**1. 서론** 원격탐사 영상은 고해상도 이미지와 복잡한 지형·구조를 포함하지만, 라벨링 비용이 높아 데이터 부족 문제가 심각하다. 최근 확산 모델을 활용한 데이터 증강이 주목받고 있으나, 텍스트 기반 생성은 라벨링이 별도로 필요하고, 기존 레이아웃‑투‑이미지(L2I) 방법은 바운딩 박스 수준의 제어만 제공한다. 박스 내부의 세밀한 형태가 라벨과 불일치하면 학습에 오히려 악영향을 미친다. 따라서 박스 내 픽셀‑레벨 정밀 제어와 구조적 다양성을 동시에 만족시키는 방법이 요구된다. **2. 관련 연구** L2I 분야에서는 GLIGEN, AeroGen, CC‑Diff 등 공간 정보를 직접 모델에 주입해 제어성을 높였지만, 어텐션이 전역적으로 퍼져 배경과 혼합되는 문제가 있었다. 또한 마스크 기반 OF‑Diff는 마스크 획득이 어려워 적용이 제한적이다. 데이터 증강 측면에서는 멀티‑스테이지 파이프라인이 높은 비용을 초래한다. 이러한 배경에서 본 논문은 엣지 맵이라는 저비용 고품질 구조 정보를 활용한다. **3. RSGen 프레임워크** RSGen은 두 모듈로 구성된다. - **Edge2Edge**: 1) HED 기반 엣지 데이터베이스 구축. 2) 입력 레이아웃(클래스·비율)과 가장 유사한 엣지를 검색하고, 복합 맵을 만든다. 3) LoRA‑파인튜닝된 SDXL 모델에 복합 맵을 입력, 텍스트 프롬프트(클래스명)와 다양한 랜덤 시드를 결합해 I2I 변환을 수행한다. 4) “Scale‑Balanced Region Attention”을 U‑Net에 삽입해 큰 박스가 과도하게 주도하는 현상을 억제하고, 박스 경계 내에서만 의미가 집중되도록 한다. - **FGControl (Frequency‑Gated Control)**: 1) 생성된 엣지를 고주파 구조 잔차로 변환(저주파 필터링). 2) 고주파 잔차를 바운딩 박스 내부에만 주입하기 위해 “Spatially Gated Injection”을 설계한다. 3) 초기 디노이징 단계에서는 “Region Loss”를 도입해 각 박스 영역에 맞는 어텐션을 강제한다. 이 손실은 IoU‑형식으로 전경 어텐션을 최대화하고 배경 누수를 최소화한다. 4) 후반 단계에서는 마스크된 어텐션 행렬을 사용해 박스 외부 쿼리‑키 쌍에 -∞ 마스크를 적용, 정보 흐름을 차단한다. 이 두 모듈은 기존 L2I 모델(예: MIGC, CC‑Diff, FICGen)을 그대로 유지하면서 가벼운 파라미터(LoRA, FGControl)만 추가한다. **4. 실험 및 결과** - **데이터셋**: DIOR‑RSVG(HBB)와 DOTA‑v1.0(OBB) 두 가지 벤치마크. - **베이스라인**: MIGC, CC‑Diff, FICGen. - **평가 지표**: FID(생성 품질), YOLOScore(mAP50, mAP50‑95) 및 전통적인 mAP. 주요 결과: - CC‑Diff + RSGen: DOTA에서 YOLOScore mAP50 +9.8, mAP50‑95 +12.0, mAP +1.6 향상. - MIGC + RSGen: DIOR‑RSVG에서 FID 약 6% 감소, YOLOScore mAP50 +5.7, mAP50‑95 +5.6. - 전체적으로 모든 베이스라인에서 FID는 크게 악화되지 않으며, 정량적 제어 정확도가 현저히 상승했다. **5. Ablation Study** - Edge2Edge 없이 FGControl만 적용하면 구조 다양성이 감소해 YOLOScore가 3~4% 낮아진다. - FGControl 없이 Edge2Edge만 적용하면 박스 정렬 오류가 여전히 존재해 mAP가 2~3% 미만 향상에 그친다. - 두 모듈을 동시에 적용했을 때 가장 큰 시너지 효과가 나타난다. **6. 논의 및 한계** - 엣지 품질이 HED에 크게 의존하므로, 복잡한 텍스처나 색상 변이가 큰 객체에 대해 엣지 추출이 부정확할 수 있다. - 매우 작은 객체는 스케일 밸런싱 파라미터 튜닝이 필요하며, 현재 자동화된 방법은 제시되지 않았다. - 계산 비용은 LoRA와 FGControl 파라미터가 적어 기존 L2I 모델 대비 크게 증가하지 않지만, Edge2Edge의 I2I 단계는 추가 GPU 메모리를 요구한다. **7. 결론 및 향후 연구** RSGen은 레이아웃‑기반 원격탐사 이미지 생성에 픽셀‑레벨 정밀 제어와 구조적 다양성을 동시에 제공하는 첫 번째 프레임워크이다. 플러그‑인 방식으로 기존 모델에 손쉽게 적용 가능하며, 데이터 증강 효과를 통해 다운스트림 객체 검출 성능을 크게 끌어올린다. 향후 연구에서는 멀티‑모달 엣지(예: 레이더·광학 융합), 자동 스케일 조정, 그리고 초소형 객체에 대한 특화된 마스크 설계 등을 탐색할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기