YouTube UGC 데이터셋 비디오 압축 연구의 새로운 지평

본 논문은 YouTube에서 수집한 대규모 사용자 생성 콘텐츠(UGC) 비디오 데이터셋을 소개합니다. 기존 압축 및 품질 평가 지표(PSNR, VMAF 등)가 원본이 완벽하다는 가정 하에 설계되어 UGC의 비-프리스틴(non-pristine) 특성에 적용 시 한계를 보이는 문제를 지적하며, 1500개의 20초 클립으로 구성된 이 데이터셋은 다양한 카테고리와 해상도를 포괄합니다. 또한, 인코딩 특징 기반의 새로운 샘플링 방법을 제안하고, 참조 없…

저자: Yilin Wang, Sasi Inguva, Balu Adsumilli

YouTube UGC 데이터셋 비디오 압축 연구의 새로운 지평
본 논문 "YouTube UGC Dataset for Video Compression Research"은 사용자 생성 콘텐츠(UGC) 비디오의 압축 및 품질 평가 연구를 위한 대규모 공개 데이터셋을 소개하고, 이 분야의 핵심 과제를 분석합니다. 서론에서는 인터넷 트래픽의 대부분을 차지하는 비디오의 효율적 압축 필요성을 언급하며, HEVC, AV1 등 최신 코덱 개발에도 불구하고 품질 평가 측면에서 UGC가 가지는 독특한 난제를 제기합니다. 대부분의 UGC는 전문 장비로 제작된 프리스틴(pristine) 원본이 아니며, 원본 자체에 노이즈, 흔들림, 다양한 아티팩트가 존재합니다. 이로 인해 원본을 '완벽한 기준'으로 삼는 전통적인 참조 기반 품질 지표(BD-Rate, PSNR, SSIM, VMAF)의 신뢰도가 크게 떨어집니다. 이러한 실질적 문제를 해결하기 위한 공개 UGC 데이터셋이 부족한 현실을 지적하며 본 데이터셋의 필요성을 강조합니다. 데이터셋 개요 섹션에서는 YouTube 크리에이티브 커먼즈 라이선스 비디오 150만 개를 출발점으로, 지식 그래프(Knowledge Graph)를 통해 정의된 15개 카테고리(게임, 스포츠, HDR, Vlog, VR 등)와 다양한 해상도(360p ~ 4K)로 구성된 1500개의 20초 YUV 4:2:0 형식 클립을 설명합니다. 20초 길이는 실제 병렬 인코딩 파이프라인에서의 청크 간 품질 변동성을 관찰하기에 적합합니다. 가장 기술적 핵심인 데이터셋 샘플링 섹션에서는 방대한 비디오 풀에서 대표성을 갖는 샘플을 선정하기 위한 혁신적 방법을 제안합니다. 단순한 시각적 특징 대신, 실제 H.264 인코딩 과정에서 생성되는 진단 정보를 활용하여 네 가지 복잡도 특징(공간, 색상, 시간, 청크 변동성)을 추출합니다. 이 특징들은 비디오의 압축 난이도와 인코딩 품질 일관성에 직접적인 영향을 미치는 요소들입니다. 정규화된 4차원 특징 공간을 구획화하고, 유클리드 거리 기준으로 다양성을 유지하며 샘플을 선택하는 알고리즘을 적용했습니다. 그 결과, 선정된 데이터셋은 원본 집단의 특징 분포를 덜 뾰족하고(spiky) 광범위하게(평균 89% 커버리지) 커버하는 것으로 나타났습니다. UGC 품질 평가의 도전 과제 섹션에서는 구체적인 사례를 통해 참조 기반 지표의 실패를 시각적으로 증명합니다. 원본에 이미 심한 아티팩트가 있거나, 오히려 압축 과정에서 원본의 노이즈가 감소하는 경우, PSNR 등은 압축으로 인한 품질 열화를 잘못 보고합니다. 이에 대한 해결책으로 참조 없는 객관적 품질 지표를 통한 평가 방식을 제시합니다. 논문은 세 가지 NR 지표(노이즈 검출기, 밴딩 아티팩트 측정기, 자연 장면 왜곡 측정 지표 SLEEQ)를 제안 데이터셋 전체에 적용하여 품질 분포를 분석합니다. 대부분의 YouTube 업로드 비디오가 심각한 아티팩트를 포함하지 않음을 보여주면서도, 애니메이션 카테고리에서 밴딩 아티팩트가 상대적으로 많다는 등 카테고리별 특정 품질 이슈를 발견합니다. 결론에서는 이 데이터셋이 UGC 비디오 압축 및 품질 평가 연구의 실용적 요구사항을 반영하는 데 기여할 수 있기를 기대하며, 비-프리스틴 원본에 대한 품질 열화 평가 방법은 여전히 중요한 개방형 문제로 남아있음을 강조합니다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기