빔 탐색 최적화를 통한 시퀀스‑투‑시퀀스 학습

시퀀스‑투‑시퀀스(seq2seq) 모델은 인코더‑디코더 구조를 기반으로 입력 시퀀스를 고정 차원의 벡터로 인코딩하고, 디코더가 이를 바탕으로 목표 시퀀스를 순차적으로 생성한다. 기존 연구들은 대부분 디코더를 조건부 언어 모델로 학습시켜, 각 타임스텝 t에서 정답 토큰 y_t의 확률 p(y_t|y_{1:t‑1},x)를 최대화하는 교차 엔트로피 손실을 사용한다. 이러한 접근법은 학습 효율성과 단어‑레벨 예측 정확도에서는 뛰어나지만, 실제 테스트 시에는 빔 탐색이나 그리디 디코딩을 통해 전체 시퀀스를 생성한다. 이 과정에서 두 가지 주요 문제가 드러난다. 첫째, 모델은 훈련 시 정답 히스토리만을 보게 되므로, 테스트 시 자신의 예측 오류가 누적되는 노출 편향(exposure bias)이 발생한다. 둘째, 단어‑레벨 손실과 BLEU·ROUGE·F1 등 시퀀스‑레벨 평가 지표 사이에 불일치가 존재한다(손실‑평가 불일치). 또한, 각 타임스텝에서 소프트맥스 정규화된 확률은 라벨 바이어스(label bias)를 야기한다. 본 논문은 이러한 문제들을 동시에 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 확률 대신 비정규화된 점수 함수 f(w_t, h_{t‑1}, x)를 도입해 시퀀스 전체에 대한 전역 점수를 학습한다. 소프트맥스가 사라짐으로써 라벨 바이어스가 근본적으로 제거된다. 두 번째는 LaSO(learning as search optimization)에서 영감을 얻은 Beam Search Optimization(BSO) 프레임워크를 적용해, 빔 탐색 과정 자체를 손실 함수에 포함시킨다. 구체적으로, 빔 크기 K를 유지하면서 매 타임스텝 t에 후보 시퀀스 집합 S_t를 구성하고, 금골 시퀀스 y_{1:t}의 점수가 빔 내 K번째(가장 낮은 점수) 후보보다 일정 마진(margin) 이하이면 손실을 발생시킨다. 손실은 L = Σ_{t=1}^T Δ(ĥy^{(K)}_{1:t})·

빔 탐색 최적화를 통한 시퀀스‑투‑시퀀스 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기