Saab 변환의 에너지 컴팩션: HEVC 인트라 코딩에서 DCT·KLT와의 비교

본 논문은 최신 영상 코딩 표준 HEVC에서 사용되는 인트라 예측 잔차 블록에 대해 Saab 변환의 에너지 컴팩션 특성을 DCT와 Karhunen‑Loeve 변환(KLT)과 비교한다. 4×4, 8×8, 16×16 크기의 잔차 블록을 대상으로 1단계와 2단계(다단계) Saab 변환을 설계하고, 각 변환의 DC·AC 에너지 분포와 누적 AC 에너지 압축 효율을 실험적으로 평가한다. 실험 결과, 특히 2단계 Saab 변환이 AC 에너지 집중도가 가장…

저자: Na Li, Yongfei Zhang, Yun Zhang

Saab 변환의 에너지 컴팩션: HEVC 인트라 코딩에서 DCT·KLT와의 비교
**1. 서론** 2차원 이미지 변환은 공간 도메인 신호를 스펙트럼 도메인으로 매핑해 에너지를 소수의 계수에 집중시키는 역할을 한다. 전통적으로 DCT가 가장 널리 쓰이며, 데이터‑독립적인 특성으로 하드웨어 구현이 용이하고 JPEG·MPEG·HEVC 등 표준에 채택돼 왔다. 그러나 DCT는 이미지의 실제 상관 구조를 완전히 반영하지 못한다는 한계가 있다. 반면 Karhunen‑Loeve Transform(KLT, 즉 PCA)은 공분산 행렬의 고유벡터를 이용해 최적의 에너지 컴팩션을 제공하지만, 데이터‑종속적이며 샘플이 충분히 많지 않으면 공분산 추정이 불안정하고 연산량이 크게 증가한다. 최근 제안된 Saab 변환은 다단계 PCA 기반의 비분리형 변환으로, 각 단계에서 DC와 AC 성분을 명시적으로 분리하고, 다음 단계 입력이 비음수가 되도록 큰 양의 바이어스를 추가한다. 이는 CNN의 비선형 활성화와 서브스페이스 근사 해석에 기반한다. 본 논문은 이러한 Saab 변환을 HEVC 인트라 코딩 환경에 적용해, DCT와 KLT와의 에너지 컴팩션 성능을 정량적으로 비교한다. **2. 배경 및 이론** - **DCT**: 2D DCT는 1D DCT 커널을 행·열에 각각 적용하는 separable 구조이며, 식 (1)로 정의된다. - **KLT**: 이미지 블록을 1차원 벡터화한 뒤 공분산 행렬을 계산하고, 고유벡터를 변환 커널로 사용한다. 데이터‑종속적이지만 최적의 에너지 집중을 보장한다. - **Saab 변환**: 첫 단계에서 블록을 작은 서브블록(예: 2×2)으로 나누어 DC 필터와 AC 필터를 학습한다. AC 출력에 충분히 큰 바이어스 b_k를 더해 모든 값이 비음수가 되도록 만든 뒤, 두 번째 단계에서 이 출력들을 2‑차원(공간‑스펙트럼) 큐보이드 형태로 재구성하고 다시 PCA를 적용한다. 결과적으로 비분리형 2D 커널 a_k가 도출된다. **3. 실험 설계** - **데이터 수집**: HEVC HM 16.9 인트라 모드에서 QP 22,27,32,37을 사용해 다양한 해상도(832×480 등)의 영상에서 4×4, 8×8, 16×16 잔차 블록을 추출하였다. - **샘플 수 결정**: 공분산 행렬의 수렴을 Frobenius norm 차이가 1.5×10⁻⁴ 이하가 될 때까지 약 60 000개의 블록을 사용하였다 (Fig. 1). - **평가 지표**: (1) DC 평균 에너지, (2) AC 평균 에너지, (3) 누적 AC 에너지 비율 E_{N×N}^K (식 6)으로 정의된 상위 K개의 AC 계수에 집중된 에너지 비율. **4. 결과 및 분석** - **DC 에너지**: Table I과 Fig. 2에서 2단계 Saab 변환은 다른 변환에 비해 DC 에너지가 현저히 낮다. 이는 2단계에서 공간‑스펙트럼 큐보이드의 가장 낮은 스펙트럼 차원만이 평균값을 크게 기여하기 때문이다. DC가 작을수록 코딩 시 별도 DC 전송 비용이 감소한다는 기대가 있다. - **AC 에너지 압축**: Fig. 3(a)~(c)에서 4×4, 8×8, 16×16 블록에 대해 누적 AC 에너지 곡선을 비교하였다. 2단계 Saab 변환은 상위 10~15개의 AC 계수에 전체 AC 에너지의 80 % 이상을 집중시켜 DCT와 KLT보다 우수한 압축 효율을 보였다. 1단계 Saab 변환은 DCT와 거의 동일한 특성을 나타냈다. - **전체 에너지 보존**: 모든 변환이 직교성을 유지하므로 총 에너지는 거의 동일하게 유지되었다(오차 <0.5 %). 이는 변환 자체가 손실이 없음을 의미한다. **5. 논의** - **비분리 vs 분리**: 2D 비분리 커널은 장거리 픽셀 상관을 직접 포착해 고주파 성분을 더 효과적으로 압축한다. 이는 특히 복잡한 텍스처나 고해상도 영상에서 장점이 된다. - **다단계 구조**: 초기 DC‑AC 분리를 통해 차원을 크게 축소하고, 이후 고차원 PCA를 적용함으로써 계산 복잡도를 단계별로 관리한다. 바이어스 추가는 신경망의 ReLU와 유사한 비음성 제한을 제공해 부호 혼동을 방지한다. - **코딩 적용 가능성**: 현재는 AC 에너지 압축만을 평가했으며, 실제 비트‑레이트(RD) 성능에 대한 정량적 분석은 진행되지 않았다. 그러나 DC 에너지 감소와 AC 에너지 집중이 동시에 이루어지는 점은 변환 선택 시 중요한 설계 인자로 작용한다. **6. 결론** Saab 변환, 특히 2단계(다단계) 구조는 HEVC 인트라 코딩에서 사용되는 잔차 블록에 대해 DCT와 KLT보다 뛰어난 에너지 컴팩션 특성을 보였다. DC 에너지가 낮아 전송 비용 절감 가능성이 있으며, AC 에너지가 소수의 계수에 집중돼 효율적인 양자화가 가능하다. 향후 연구에서는 실제 비트‑레이트와 PSNR을 포함한 RD 곡선 분석, 하드웨어 구현 비용 평가, 그리고 다양한 영상 콘텐츠에 대한 일반화 가능성을 탐색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기