빔 탐색 최적화를 통한 시퀀스‑투‑시퀀스 학습
본 논문은 전통적인 시퀀스‑투‑시퀀스(seq2seq) 모델이 학습 단계에서 단어 수준의 교차 엔트로피 손실을 사용함으로써 발생하는 노출 편향과 손실‑평가 불일치를 해결하고자, 빔 탐색 과정 자체를 손실 함수에 포함시키는 Beam Search Optimization(BSO) 방식을 제안한다. 비확률적 점수 함수를 도입해 라벨 바이어스를 완화하고, LaSO(learning as search optimization) 아이디어를 RNN 기반 디코더에 …
저자: Sam Wiseman, Alex, er M. Rush
시퀀스‑투‑시퀀스(seq2seq) 모델은 인코더‑디코더 구조를 기반으로 입력 시퀀스를 고정 차원의 벡터로 인코딩하고, 디코더가 이를 바탕으로 목표 시퀀스를 순차적으로 생성한다. 기존 연구들은 대부분 디코더를 조건부 언어 모델로 학습시켜, 각 타임스텝 t에서 정답 토큰 y_t의 확률 p(y_t|y_{1:t‑1},x)를 최대화하는 교차 엔트로피 손실을 사용한다. 이러한 접근법은 학습 효율성과 단어‑레벨 예측 정확도에서는 뛰어나지만, 실제 테스트 시에는 빔 탐색이나 그리디 디코딩을 통해 전체 시퀀스를 생성한다. 이 과정에서 두 가지 주요 문제가 드러난다. 첫째, 모델은 훈련 시 정답 히스토리만을 보게 되므로, 테스트 시 자신의 예측 오류가 누적되는 노출 편향(exposure bias)이 발생한다. 둘째, 단어‑레벨 손실과 BLEU·ROUGE·F1 등 시퀀스‑레벨 평가 지표 사이에 불일치가 존재한다(손실‑평가 불일치). 또한, 각 타임스텝에서 소프트맥스 정규화된 확률은 라벨 바이어스(label bias)를 야기한다.
본 논문은 이러한 문제들을 동시에 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 확률 대신 비정규화된 점수 함수 f(w_t, h_{t‑1}, x)를 도입해 시퀀스 전체에 대한 전역 점수를 학습한다. 소프트맥스가 사라짐으로써 라벨 바이어스가 근본적으로 제거된다. 두 번째는 LaSO(learning as search optimization)에서 영감을 얻은 Beam Search Optimization(BSO) 프레임워크를 적용해, 빔 탐색 과정 자체를 손실 함수에 포함시킨다. 구체적으로, 빔 크기 K를 유지하면서 매 타임스텝 t에 후보 시퀀스 집합 S_t를 구성하고, 금골 시퀀스 y_{1:t}의 점수가 빔 내 K번째(가장 낮은 점수) 후보보다 일정 마진(margin) 이하이면 손실을 발생시킨다. 손실은
L = Σ_{t=1}^T Δ(ĥy^{(K)}_{1:t})·
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기