부분적으로 관찰된 컨텍스트에서 효율적인 탐색을 위한 베이지안 프레임워크
읽는 시간: 3 분
...
📝 원문 정보
- Title: Co-Exploration and Co-Exploitation via Shared Structure in Multi-Task Bandits
- ArXiv ID: 2512.12693
- 발행일: 2025-12-14
- 저자: Sumantrak Mukherjee, Serafima Lebedeva, Valentin Margraf, Jonas Hanselle, Kanta Yamaoka, Viktor Bengs, Stefan Konigorski, Eyke Hüllermeier, Sebastian Josef Vollmer
📝 초록 (Abstract)
본 논문에서는 부분적으로만 관찰되는 컨텍스트와 잠재적 컨텍스트 변수에 의해 유도되는 보상 분포 간의 의존성을 고려한 새로운 베이지안 프레임워크를 제안합니다. 우리의 접근법은 모든 작업에서 관측을 통합하고 전역적인 결합 분포를 학습하면서, 여전히 새 작업에 대한 개인화된 추론을 가능하게 합니다. 이와 관련하여, 우리는 두 가지 주요 인식 불확실성 요인, 즉 팔과 작업 간의 잠재적 보상 의존성에서 발생하는 구조적 불확실성 및 부족한 컨텍스트와 제한된 상호작용 역사로 인해 발생하는 사용자별 불확실성을 식별합니다. 우리의 방법을 실제 적용하기 위해, 우리는 작업과 보상에 대한 결합 분포를 로그 밀도 가우시안 프로세스의 입자 기반 근사치로 표현합니다. 이 표현은 잠재 변수에 대한 사전 가정 없이 팔 간 및 작업 간 의존성을 유연하고 데이터 주도적으로 발견할 수 있게 합니다. 경험적으로, 우리는 우리의 방법이 계층적 모델 밴딧과 같은 기준선보다 우수함을 보여주며, 특히 모델의 오해 또는 복잡한 잠재적 이질성에서 더욱 그렇습니다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 부분적으로 관찰되는 컨텍스트와 잠재 변수에 의해 유도되는 의존성을 고려한 새로운 베이지안 프레임워크를 제시합니다. 이 접근법의 핵심은 모든 작업에서 수집된 데이터를 통합하여 전역적인 결합 분포를 학습하면서, 각각의 사용자 또는 작업에 맞는 개인화된 추론을 가능하게 하는 것입니다. 논문에서는 두 가지 주요 불확실성 요인, 즉 팔과 작업 간의 잠재적 보상 의존성에서 발생하는 구조적 불확실성 및 부족한 컨텍스트와 제한된 상호작용 역사로 인해 발생하는 사용자별 불확실성을 식별하고 이를 해결하기 위한 방법을 제시합니다.논문의 주요 기여 중 하나는 로그 밀도 가우시안 프로세스를 이용한 입자 기반 근사치를 통한 작업과 보상에 대한 결합 분포의 표현입니다. 이러한 접근법은 잠재 변수에 대한 사전 가정 없이 팔 간 및 작업 간 의존성을 유연하고 데이터 주도적으로 발견할 수 있게 합니다. 이는 특히 모델의 오해 또는 복잡한 잠재적 이질성이 있는 상황에서 기존 방법보다 우수한 성능을 보여주며, 실제 적용 시 중요한 장점입니다.
📄 논문 본문 발췌 (Excerpt)
Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.