인터랙티브 싱글인덱스 모델 학습을 위한 SGD: 번인‑학습 단계의 최적화
본 논문은 일반화 선형 밴드릿(싱글인덱스 모델)에서 적응형 데이터에 대해 확률적 경사하강법(SGD)을 적용한 이론적 분석을 제공한다. SGD가 “번인”(burn‑in) 단계와 “학습”(learning) 단계라는 두 구간을 자연스럽게 겪으며, 적절한 학습률·탐색 파라미터 스케줄을 선택하면 두 단계 모두에서 거의 최적에 가까운 샘플 복잡도와 누적 레지스트(후회) 경계를 달성한다는 것을 증명한다.
저자: Nived Rajaraman, Yanjun Han
본 논문은 인터랙티브 의사결정 문제, 특히 일반화 선형 밴드릿(싱글인덱스 모델)에서 확률적 경사하강법(SGD)의 동작 메커니즘을 체계적으로 분석한다. 모델은 알려진 링크 함수 f와 파라미터 θ★∈S^{d‑1}를 갖으며, 매 라운드 t마다 학습자는 행동 aₜ∈S^{d‑1}를 선택하고 보상 rₜ = f(⟨θ★,aₜ⟩)+εₜ를 관측한다. εₜ는 평균 0, 1‑sub‑Gaussian 잡음이다. 기존 연구는 i.i.d. 가우시안 피처 xₜ에 대해 SGD가 두 단계(검색‑하강)를 거친다는 사실을 밝혀냈지만, 행동이 학습자에 의해 적응적으로 선택되는 상황에서는 이러한 분석이 직접 적용되지 않는다.
논문은 먼저 탐색 정책 aₜ = √(1‑σₜ²)·θₜ + σₜ·Zₜ (Zₜ는 θₜ와 직교하는 단위벡터 집합에서 균등 추출) 를 제안한다. σₜ∈
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기