훈련 없이 실시간 장문 음성음성 번역을 구현한 SimulU 정책
SimulU는 사전 학습된 End‑to‑End 음성‑음성 번역 모델(SeamlessM4T)의 교차‑어텐션을 활용해 입력 히스토리와 출력 선택을 동적으로 관리하는 훈련‑무료 동시 번역 정책이다. MuST‑C 8개 언어에서 장문 스트리밍 환경을 시뮬레이션한 실험 결과, 기존 강력한 캐스케이드 시스템과 비교해 품질‑지연 트레이드오프가 동등하거나 우수함을 보이며, 별도 추가 학습 없이도 연속적인 회의·스트리밍 상황에 적용 가능함을 입증한다.
저자: Amirbek Djanibekov, Luisa Bentivogli, Matteo Negri
본 논문은 실시간 다국어 커뮤니케이션을 위한 장문 동시 음성‑음성 번역(SimulS2S)의 현재 한계를 짚고, 훈련‑무료 정책인 SimulU를 제안한다. 기존 연구는 대부분 짧은 사전 분할 구간에 초점을 맞추고, 복잡한 강화학습·다중 목표 최적화 파이프라인을 통해 정책을 학습한다. 이러한 접근은 대규모 정렬 음성‑텍스트 데이터가 필요하고, 훈련 비용이 높으며, 연속적인 회의·스트리밍 상황에 적용하기 어렵다.
SimulU는 이러한 문제를 해결하기 위해 사전 학습된 End‑to‑End S2ST 모델인 SeamlessM4T의 내부 교차‑어텐션을 직접 활용한다. 정책은 6단계로 구성된다. 1) **오디오 획득** 단계에서 입력 음성을 일정 크기의 청크(프레임) 단위로 받아 히스토리에 누적한다. 2) **가설 생성** 단계에서는 현재 히스토리를 Speech‑to‑Text 모듈에 입력해 중간 텍스트 가설을 만든다. 3) **안정 가설 선택** 단계에서는 교차‑어텐션 점수를 이용해 최신 f 프레임(불안정 프레임)과 가장 높은 정렬 점수를 보이는 토큰을 찾아, 해당 토큰이 완전히 정렬될 때까지 가설을 ‘읽기’ 상태로 유지한다. 이때 f 값이 작을수록 지연이 낮아진다.
4) **입력 히스토리 선택** 단계에서는 텍스트 히스토리와 음성 히스토리를 동시에 관리한다. 텍스트 히스토리는 고정된 단어 수 W_H(실험에서 10단어)만 보존하고, 교차‑어텐션을 통해 해당 텍스트와 정렬된 음성 프레임을 찾아 히스토리에서 제거한다. 이렇게 하면 모델이 감당할 수 있는 컨텍스트 길이를 일정하게 유지하면서도, 최신 입력과 과거 정보를 효율적으로 결합한다.
5) **음성 유닛 생성·합성** 단계에서는 남은 텍스트 가설을 Text‑to‑Unit 모듈에 전달해 50 Hz 단위의 음성 유닛을 만든 뒤, HiFi‑GAN 기반 유닛‑보코더를 통해 실제 파형을 합성한다. 이때 전체 텍스트 히스토리를 입력으로 제공함으로써, 부분 문맥만으로 합성할 때 발생하는 품질 저하를 방지한다.
6) **유닛·가설 선택** 단계에서는 텍스트‑유닛 교차‑어텐션을 다시 활용해 새 가설에 대응하는 유닛을 정확히 매핑한다. 기존 히스토리와 연결된 유닛은 제외하고, 새 가설에 해당하는 유닛만을 남겨 최종 파형의 일부분을 발화한다. 여기서는 SeamlessM4T가 내부적으로 사용하는 320배 압축 비율을 고려해, 삭제할 유닛 수를 시간으로 변환한다.
실험 설정은 MuST‑C v1.0의 8개 언어쌍(EN→NL, FR, DE, IT, PT, RU, RO, ES)을 대상으로, 전체 TED 강연을 스트리밍 형태로 제공하였다. 품질 평가는 Canary‑Whisper 기반 ASR 전사 후 BLEU 점수로, 지연 평가는 SimulEval의 StartOffset(첫 출력까지 소요 시간)과 EndOffset(전체 입력 종료 후 최종 출력까지 소요 시간)으로 측정하였다. Baseline으로는 (1) StreamAtt+Seam.TTS, (2) StreamAtt+XTTS‑v2, (3) LA+Seam.TTS, (4) LA+XTTS‑v2 네 가지 캐스케이드 시스템을 사용했으며, StreamAtt 정책은 교차‑어텐션 기반 동시 S2TT, LA 정책은 청크 간 공통 접두어를 이용한 안정 가설 선택 방식을 따른다.
결과는 다음과 같다. SimulU는 대부분의 언어쌍에서 ASR‑BLEU 점수가 6~8점 정도 높은 반면, StartOffset은 1~2초 수준으로 기존 LA 기반 시스템보다 낮았다. 특히 StreamAtt+XTTS‑v2와 비교했을 때, TTS 품질 차이에도 불구하고 동일한 지연 조건에서 4~5 BLEU 포인트 이상 우수한 성능을 보였다. SeamlessM4T 기반 TTS(Seam.TTS)는 부분 문맥에 민감해 품질이 급격히 저하되는 반면, SimulU는 전체 텍스트 히스토리를 그대로 제공함으로써 합성 품질을 유지한다. EndOffset 측면에서도 SimulU는 대부분의 언어에서 StreamAtt+XTTS‑v2보다 낮은 지연을 기록했다.
이러한 실험 결과는 **교차‑어텐션을 정책 신호로 활용하는 것이 훈련‑무료 동시 번역에 충분히 강력함을 입증**한다는 점에서 의미가 크다. 별도의 데이터 수집·재학습 없이도 사전 학습된 대규모 모델을 그대로 활용해 장문 스트리밍 상황에 적용 가능하므로, 실제 회의·방송 서비스에 바로 도입할 수 있는 실용성을 제공한다. 향후 연구에서는 (1) 다른 사전 학습 모델(예: Whisper, XLS‑R)에도 동일한 정책을 적용, (2) 다중 모달(음성‑텍스트‑비디오) 상황에서 어텐션 기반 정책을 확장, (3) 어텐션 점수의 정량적 해석을 통해 정책 파라미터(f, W_H 등)를 자동 튜닝하는 방법을 탐구할 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기