잔차를 교사로 활용한 편향 완화 기법
본 논문은 학생‑교사 학습에서 교사의 편향이 학생에게 그대로 전파되는 문제를 지적하고, 교사를 잔차 추정에 활용하는 “Residual‑as‑Teacher(RaT)” 방법을 제안한다. RaT는 학생 모델이 교사의 잔차를 반복적으로 보정하도록 설계되어, 근접 경사법의 프로시멀 업데이트와 동등한 형태를 갖는다. 일반적인 학생‑교사 쌍에 대해 비점근적 과잉 위험 상한을 제공하고, 커널 기반 경우에는 RaT가 최소극한 최적 속도를 달성하는 반면, 기존 …
저자: Kakei Yamamoto, Martin J. Wainwright
1. **문제 설정 및 동기**
- 학생‑교사 프레임워크는 복잡한 사전 학습 교사 모델의 예측을 이용해 더 가볍고 해석 가능한 학생 모델을 학습하는데 널리 쓰인다. 기존 방법은 교사의 출력을 직접 모방하는 소프트 매칭(SM)으로, 교사가 정확하면 좋은 성능을 보이지만, 교사가 체계적인 편향(예: 트리 기반 모델의 축축한 축, 커널 방법의 과도한 정규화, 얕은 신경망의 저주파 편향 등)을 가질 경우 그 편향이 그대로 학생에게 전파된다. 이는 “확인 편향”이라 불리며, 데이터가 충분히 많아도 학생의 위험이 하한에 머무는 문제를 야기한다.
2. **Residual‑as‑Teacher(RaT) 아이디어**
- RaT는 교사를 학생 예측의 잔차를 추정하는 도구로 전환한다. 구체적으로, 현재 학생 모델 f_t 가 소스 데이터에 대해 만든 예측 f_t(x_i)와 실제 레이블 y_i 의 차이 r_i = y_i − f_t(x_i) 를 교사 g 가 학습한다. 그 후, 교사의 잔차 예측 \hat r 를 이용해 학생을 업데이트한다. 이 과정은 다음 두 단계로 요약된다.
1) **학생 프로시멀 업데이트**: 손실의 1차 근사와 정규화 Pen 을 결합해 Prox_η 연산을 수행, 즉 f_{t+1}=argmin_f { (1/2η)‖f(eX)−(f_t(eX)−η∇\bar L_m(f_t))‖² + Pen(f) }.
2) **교사 잔차 추정**: 소스 데이터에 대해 현재 학생의 잔차를 목표로 교사 g_{t+1}=argmin_g (1/n)∑_i ℓ(g(x_i), r_i).
- 이 두 단계는 프로시멀 경사법의 한 번의 업데이트와 동일한 형태를 가지며, 고정점 f* 은 f* = Prox_η( f* − η∇\bar L_m(f*) ) 이라는 자기 일관성을 만족한다.
3. **이론적 결과**
- **Theorem 1 (비점근적 과잉 위험 상한)**: RaT 고정점 \hat f 에 대해 \bar L_Q(\hat f) − \bar L_Q(f†) ≤ C₁·(bias_term) + C₂·(variance_term) 을 보인다. 여기서 bias_term 은 교사의 편향 b = E_P
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기