비참조 품질 지표를 활용한 엔셈블 기반 비선형 최적화
본 논문은 비참조 영상 품질 지표(NRM)의 불안정한 그래디언트를 완화하고, 여러 NRM을 동시에 최적화하기 위해 선형화(LNRM)와 스무딩을 결합한 새로운 RDO 프레임워크를 제안한다. AVC와 Cool‑chic 코덱에 적용해 YouTube UGC 데이터셋에서 일관된 비트레이트 절감과 인코딩 시간 단축을 입증하였다.
저자: ** *저자 정보가 논문 본문에 명시되어 있지 않아 제공할 수 없습니다.* **
본 연구는 사용자 생성 콘텐츠(UGC)와 같이 원본이 품질이 낮거나 손상된 상황에서 비참조 영상 품질 지표(NRM)를 활용한 비트 할당 최적화가 필요하다는 배경에서 시작한다. 기존 하이브리드 코덱과 오버피팅 코덱은 주로 전참조 지표인 SSE(또는 PSNR)를 손실 함수에 사용해, 비트레이트가 증가함에 따라 왜곡이 완벽에 가까워지는 현상을 보인다. 그러나 UGC는 원본 자체에 잡음·블러·압축 아티팩트가 존재하므로, 전참조 지표에 기반한 최적화는 실제 시각 품질을 제대로 반영하지 못한다.
비참조 지표는 딥러닝 기반 모델이 다수이며, 입력 이미지에 대한 미분값이 고도로 비선형이고 지역적으로 급격히 변한다(gradient instability). 이러한 특성 때문에, 기존 연구에서 제안된 Linearized NRM(LNRM) 방식—즉, NRM을 입력 이미지 x에 대해 1차 테일러 전개해 ∇b(x)·(x̂−x) 형태의 선형 항을 RDO에 삽입—은 그래디언트가 한 번만 계산되므로 하이브리드 코덱에 적용하기에 계산량이 적다. 하지만 단일 NRM에 최적화하면 해당 NRM에서는 품질이 향상되지만, 다른 NRM에서는 개선이 미미하거나 오히려 악화되는 현상이 관찰된다. 이는 NRM마다 학습 데이터·구조가 달라 서로 다른 편향을 가지고 있기 때문이다.
이에 저자들은 두 가지 개선 방안을 제시한다. 첫 번째는 NRM 앙상블을 구성해 손실 함수를 ℓ_c(x)=∑_{i=1}^m τ_i b_i(x) 로 정의하고, 각 NRM의 그래디언트를 가중합해 ∇ℓ_c(x)=∑ τ_i ∇b_i(x) 를 얻는 것이다. 이렇게 하면 하나의 선형화된 손실식에 여러 품질 예측기의 정보를 동시에 반영할 수 있어, 특정 모델에 편향된 최적화를 방지하고 전반적인 품질 향상을 기대할 수 있다. 앙상블 구성 시, 서로 상관관계가 낮은 NRM들을 선택하고 가중치를 적절히 조정하면 서로 보완적인 특성을 활용할 수 있다. 논문에서는 MDS와 상관 행렬을 이용해 7개의 대표 NRM(QualiCLIP, MA‑CLIP, CLIP‑IQA+, T‑OPIQ‑NR, HyperIQA, MUSIQ, NIQE 등)의 상관성을 시각화하고, 세 개의 클러스터로 구분해 앙상블 설계 가이드를 제공한다.
두 번째 개선은 그래디언트 스무딩이다. 입력 이미지에 가우시안 잡음 n∼𝒩(0,σ²I)를 여러 번( n_s 샘플) 추가해 b_σ(x)=E_n
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기