시각 예시 기반 언어 없는 이미지 편집
본 논문은 텍스트 기반 확산 모델이 “비, 흐림” 등 일상적인 시각 변형을 제대로 다루지 못하는 문제를 지적하고, 언어 대신 시각 예시 한 쌍을 이용해 직접적인 조건 신호를 학습하는 **Visual Diffusion Conditioning (VDC)** 프레임워크를 제안한다. VDC는 훈련 없이도 이미지의 변형 방향을 추출하고, DDIM 역전 과정에 조건 스티어링과 역전 보정 단계를 결합해 고품질 편집을 실현한다. 실험 결과, 기존 텍스트 기반…
저자: Omar Elezabi, Eduard Zamfir, Zongwei Wu
본 논문은 텍스트‑조건 확산 모델이 “비”, “안개”, “흐림” 등 일상적인 시각 변형을 정확히 제어하지 못하는 현상을 관찰하고, 그 원인을 훈련 데이터의 텍스트‑비전 정합성 부족으로 규정한다. 기존 해결책은 대규모 파인‑튜닝이나 강력한 텍스트 조건을 도입하는 것이지만, 이는 높은 연산·데이터 비용을 요구한다. 저자들은 이러한 한계를 극복하기 위해 **Vision‑Centric** 접근을 제안한다. 핵심 아이디어는 텍스트 대신 **시각 예시 한 쌍(전·후 이미지)** 을 이용해 변형을 직접 관찰하고, 이를 모델 내부의 잠재 공간에서 **조건 신호(C_s)** 로 변환하는 것이다.
제안된 **Visual Diffusion Conditioning (VDC)** 프레임워크는 훈련‑프리이며, 크게 네 가지 구성 요소로 이루어진다. 첫째, **DDIM 역전**을 통해 입력 이미지의 잠재 표현 Z_t 를 복원한다. 둘째, **Condition Steering** 단계에서, 복원된 잠재에 시각 조건 C_s 를 적용해 샘플링 경로를 조정한다. 이는 기존 텍스트 프롬프트를 삽입하는 방식과 달리, 조건 자체가 시각적 특징을 직접 반영하므로 원하는 변형 방향으로 정확히 유도한다. 수식 (4)에서 제시된 가중합 형태의 스티어링은 편집 강도 s 를 조절하는 하이퍼파라미터 w=1+s 로 구현된다.
셋째, **Inversion‑Correction** 단계는 DDIM 역전 과정에서 발생하는 누적 오차를 최소화한다. 역전된 잠재 Z_p 를 여러 번 전방 DDIM 스텝으로 복원하고, 복원된 잠재와 원본 잠재 사이의 L2 손실을 역전파해 Z_p 를 미세 조정한다. 이 과정은 특히 고해상도·세밀한 디테일을 보존하는 데 효과적이며, 기존 역전 기반 편집에서 흔히 나타나는 흐릿함이나 색상 왜곡을 크게 감소시킨다.
조건 신호 C_s 자체는 **Implicit Neural Representation (INR)** 방식을 차용한 3‑layer MLP 로 구현한다. 토큰 인덱스를 Fourier Feature 로 변환한 뒤 MLP 에 입력해 연속적인 임베딩을 생성한다. 이렇게 하면 77개의 토큰 전체를 동시에 최적화할 수 있어, 텍스트 임베딩을 부분적으로만 조정하던 기존 방법보다 풍부하고 일관된 시각 조건을 얻는다. 또한, 각 diffusion step마다 별도의 MLP 를 학습함으로써 시간‑의존적인 편집 강도를 세밀하게 제어한다.
학습 최적화는 **전역 최적화** 방식으로 설계된다. 초기에는 부분적인 DDIM 역전(시작 스텝 p)만 수행하고, 이후 전체 diffusion 과정을 거친 최종 잠재 Z*_0 와 목표 잠재 Z_0 사이의 L2 손실을 최소화한다(식 6). 이는 편집이 초기 단계에만 집중되는 기존 방법과 달리, 전체 diffusion 경로에 걸쳐 편집을 분산시켜 자연스러운 결과를 만든다. 실험에서는 비, 안개, 흐림, 색상 변환 등 다양한 변형에 대해 FID와 LPIPS 지표가 기존 SOTA 텍스트 기반 및 훈련‑프리 방법보다 현저히 낮은 값을 기록했다. 특히, 텍스트 프롬프트가 전혀 제공되지 않아도 단일 이미지 쌍만으로 높은 품질의 편집이 가능하다는 점이 큰 장점이다.
논문의 주요 기여는 다음과 같다. (1) 텍스트‑프리, 시각‑조건 기반 편집 프레임워크 VDC 제안. (2) 단일 예시 쌍으로부터 변형을 인코딩하는 경량 신경 임베딩 설계. (3) 조건 스티어링과 역전 보정이 결합된 샘플링·역전 전략으로 높은 편집 정확도와 시각적 충실도 달성. (4) 다양한 실험을 통해 기존 텍스트 기반 및 훈련‑프리 방법을 전반적으로 능가함을 입증.
VDC는 대규모 파인‑튜닝 없이도 기존 대규모 확산 모델이 내재하고 있는 풍부한 시각 표현을 그대로 활용한다는 점에서, 저자원 환경, 사용자 맞춤형 편집, 도메인‑특화 변형 등 실용적인 응용 분야에 큰 잠재력을 가진다. 향후 연구에서는 다중 예시 기반 조건 학습, 비디오 시퀀스에 대한 연속적 편집, 그리고 다른 생성 모델(예: VAE, GAN)과의 융합을 통해 VDC의 적용 범위를 확대할 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기