제약된 적대자와 온라인 학습의 새로운 프레임워크

본 논문은 온라인 학습 이론에서 전통적으로 다루어 온 두 극단, 즉 i.i.d. 통계적 학습과 완전 적대적 온라인 학습 사이에 존재하는 ‘중간’ 상황을 체계적으로 연구한다. 저자들은 먼저 학습자와 적대자를 제로섬 반복 게임으로 모델링하고, 적대자의 움직임을 제한하는 ‘제약(P₁:ₜ)’이라는 개념을 도입한다. 제약은 각 라운드 t에서 적대자가 선택할 수 있는 확률분포 집합 Pₜ(x₁:ₜ₋₁) ⊆ 𝒫 로 정의되며, 이는 과거 적대자 행동에만 의존하고 학습자의 전략에는 영향을 받지 않는다. 제약의 구체적 형태는 다음과 같이 다양하게 설정된다. 1. **최악‑경우 적대자**: Pₜ(x₁:ₜ₋₁)=𝒫, 즉 모든 확률분포가 허용된다. 2. **제약 적대자**: 특정 이진 제약 Cₜ에 의해 허용된 점들의 집합 위에만 분포가 정의된다(예: 예산 제한). 3. **스무딩 적대자**: 최악의 시퀀스에 i.i.d. 노이즈를 추가하는 형태로, 노이즈 분포군 G와 중심 cₜ에 대한 이동을 허용한다. 4. **하이브리드 적대자**: x는 고정 분포에서 추출되지만 y는 적대적으로 선택된다(또는 그 반대). 5. **i.i.d. 적대자**: 시간에 무관한 고정 분포 p∈𝒫가 매 라운드에서 사용된다. 이러한 제약을 포함한 게임의 최소극대값을 Vₜ(P₁:ₜ) 로 정의하고, 미니맥스 정리를 적용해 적대자의 전략을 ‘무지(obliviou) 전략’으로 제한해도 최적값에 차이가 없음을 보인다(정리 1). 즉, 적대자는 과거 행동만을 기반으로 확률분포를 선택하면 충분하며, 학습자는 자신의 이전 무작위화에 의존하지 않는 고정 전략으로도 최소극대값을 달성한다(명제 2). 다음 단계는 Vₜ(P₁:ₜ)를 분석하기 쉬운 형태로 상한하는 것이다. 이를 위해 순차적 대칭화(sequential symmetrization)를 수행한다. Rademacher 변수 ε₁,…,εₜ를 도입해 원래의 기대값을 \

제약된 적대자와 온라인 학습의 새로운 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기