음성·시각 융합 캐릭터 인식 자동 자막 생성

본 논문은 TV 시트콤 영상에서 최소한의 메타데이터만을 이용해 대사 텍스트와 정확한 시간 정보, 그리고 발화자를 자동으로 식별하는 캐릭터‑인식 자막 생성 시스템을 제안한다. 얼굴 검출·추적 없이 오디오‑비주얼 동기화와 사전 제공된 배우 이미지로 구성된 시각 임베딩을 활용해 고정밀 음성 예시(Exemplar)를 구축하고, 이를 기반으로 모든 발화 구간을 화자별로 분류한다. Seinfeld, Frasier, Scrubs 3개 시리즈에 대해 새롭게 …

저자: Bruno Korbar, Jaesung Huh, Andrew Zisserman

음성·시각 융합 캐릭터 인식 자동 자막 생성
본 논문은 “캐릭터‑인식 자동 자막 생성”이라는 새로운 과제를 정의하고, 이를 해결하기 위한 두 단계 파이프라인을 제안한다. 첫 번째 단계는 각 캐릭터에 대한 고정밀 음성 예시(Exemplar)를 자동으로 구축하는 과정이다. 이를 위해 전체 영상에 WhisperX 기반 VAD와 ASR을 적용해 말하기 구간을 추출하고, 웃음 구간을 사전 학습된 웃음 탐지기로 제거한다. 이후 LWTNet이라는 오디오‑비주얼 동기화 모델을 사용해 각 구간에 대한 오디오‑가이드 히트맵을 생성한다. 히트맵을 시간 평균화하고 피크 검출을 수행해, 구간 전체에 걸쳐 단일 피크가 존재하면 해당 구간을 ‘단일 화자’로 판단한다. 이렇게 선별된 구간은 시각적 화자 라벨링 단계로 넘어간다. 시각적 라벨링에서는 각 에피소드에 등장하는 배우의 1~10장의 이미지와 이름을 사전에 수집한다. CLIP‑PAD 모델을 이용해 이미지와 텍스트(“An image of <배우 이름>”)를 결합한 임베딩을 생성하고, 화자 구간의 프레임 임베딩과 코사인 유사도를 비교한다. 가장 높은 유사도를 보이는 캐릭터가 라벨로 할당되며, 유사도 점수가 τ_rec = 0.85를 초과해야만 라벨이 부여된다. 이 과정에서 얼굴 검출·크롭 없이 전체 프레임을 그대로 사용한다는 점이 특징이다. 라벨이 부착된 구간들은 ECAPA‑TDNN 기반 음성 임베딩으로 변환된다. 각 캐릭터별로 5‑최근접 이웃 기반 필터링을 수행해, 이웃 중 최소 4개가 동일 캐릭터라면 해당 샘플을 ‘정확한 예시’로 인정한다. 이렇게 구축된 예시 집합은 전체 음성 구간의 약 19 %를 차지하며, 예시 자체의 화자 정확도는 99.8 %에 달한다. 두 번째 단계에서는 구축된 예시를 활용해 모든 발화 구간에 화자 라벨을 부여한다. 각 캐릭터의 예시 임베딩 평균을 중심(centroid)으로 정의하고, 새로운 구간의 임베딩과 각 중심 간 거리를 측정한다. 최소 거리값이 사전 정의된 임계값 d보다 작으면 해당 중심의 캐릭터로 라벨링하고, 그렇지 않으면 ‘unknown’으로 분류한다. 이 방식은 짧은 구간에서도 비교적 안정적인 성능을 보이며, 불확실성을 효과적으로 처리한다. 실험은 Seinfeld, Frasier, Scrubs 세 개 TV 시리즈의 각각 6개 에피소드를 대상으로 진행되었다. 각 시리즈는 2시간 이상의 영상, 29~48명의 캐릭터, 평균 9~15명의 화자를 포함한다. Stage 1에서는 전체 VAD 구간 2107개 중 1271개(60 %)가 단일 화자 히트맵을 만족했으며, 시각적 라벨링을 거쳐 806개가 남았다. 최종 음성 필터링을 통해 407개(19 %)가 고정밀 예시로 확정되었다. 예시의 화자 라벨 정확도는 ‘Jerry’, ‘Elaine’, ‘Kramer’, ‘George’ 등 주요 캐릭터에서 99.6 %~100 %를 기록했으며, ‘others’ 그룹(21명)에서도 100 % 정확도를 보였다. Stage 2에서는 전체 발화 구간에 대해 최근접 중심 분류를 수행하고, 임계값 d를 변화시켜 POCS(분류 비율)와 정밀도 사이의 트레이드오프를 분석하였다. 전체 구간에 대해 정밀도는 d = 0.4에서 약 90 %에 도달했으며, 긴 구간(>2 초)에서는 95 % 이상을 유지했다. ‘oracle’ 점(예시가 존재하는 구간을 모두 정확히 분류)에서는 거의 완벽에 가까운 성능을 보였다. 논문의 주요 기여는 다음과 같다. 첫째, 얼굴 검출·추적 없이 오디오‑비주얼 동기화와 텍스트‑이미지 임베딩을 결합해 고정밀 화자 예시를 자동으로 구축하는 방법을 제시하였다. 둘째, 최소 메타데이터(배우 이미지와 이름)만으로 캐릭터‑인식 자막을 생성하는 전체 파이프라인을 구현하였다. 셋째, 캐릭터 라벨이 포함된 새로운 평가 데이터셋을 구축·공개하여 향후 연구에 기반을 제공하였다. 넷째, 실제 TV 시리즈에 적용해 높은 화자 식별 정확도와 실용성을 입증하였다. 향후 연구 방향으로는 (1) 다중 화자·겹치는 대화가 존재하는 복잡한 씬에서도 성능을 유지하도록 멀티모달 어텐션 메커니즘을 도입하는 방안, (2) 실시간 스트리밍 환경에 적용 가능한 경량 모델 설계, (3) 더 다양한 장르와 언어에 대한 일반화 성능 검증, (4) 생성된 자막을 SDH(Deaf‑Hard‑of‑Hearing) 표준에 맞게 자동 포맷팅하고, 배경음·효과음까지 포함하는 종합 자막 시스템으로 확장하는 연구가 제시된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기