개선 가능한 에이전트와 온라인 학습: 다중 클래스·예산·밴딧 모델

본 논문은 에이전트가 자신의 특성값을 소규모로 조정해 더 유리한 라벨을 얻을 수 있는 “학습 with 개선” 모델을 확장한다. 무한 가설 클래스에 대한 조합적 차원(Improvement Littlestone Dimension)을 제시하고, 이를 통해 다중 클래스, 비용이 부과된 개선 그래프, 그리고 밴딧 피드백 상황에서의 최적 실수 상한을 정확히 규명한다. 또한, 개선 그래프의 차수 제한을 없애고, 에이전트의 개선 비용을 고려한 예산 제약 모델…

저자: Sajad Ashkezari, Shai Ben-David

본 논문은 “학습 with 개선(Improvement)”이라는 새로운 온라인 학습 모델을 다각도로 확장·심화한다. 기존 연구는 주로 유한 가설 클래스와 이진 라벨에 국한돼 있었으며, 개선 그래프의 차수 제한과 비용 없는 상황만을 고려했다. 저자들은 이러한 제한을 벗어나, 무한 가설 클래스, 다중 클래스 라벨, 비용이 부과된 개선 그래프, 그리고 밴딧 피드백(부분 정보) 상황까지 포괄하는 일반적인 프레임워크를 제시한다. **1. 모델 정의와 기본 설정** - 인스턴스 공간 X와 라벨 공간 Y를 정의하고, 가설 클래스 H⊆Y^X를 고려한다. - 개선 그래프 G=(V,E)에서 V=X이며, (x,v)∈E는 에이전트가 원래 특성 x에서 v로 이동할 수 있음을 의미한다. 각 노드 x는 자기 자신을 포함하는 자기 루프를 갖는다. - 비용 함수 Cost:E→ℝ₊와 라벨 선호를 나타내는 유틸리티 Val:Y→ℝ을 도입한다. 에이전트는 라벨 유틸리티 차이와 이동 비용을 비교해, Val(h(v))−Val(h(x))−Cost(x,v) > 0이면 v로 이동한다. **2. 이진 라벨, 무가중 그래프** - 기존 Sharma·Sun

개선 가능한 에이전트와 온라인 학습: 다중 클래스·예산·밴딧 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기