실현 가능한 오염 하에서 고차원 가우시안 평균 추정의 정보‑계산 격차

본 논문은 평균이 알려지지 않은 단위 공분산 가우시안 분포에 대해, 각 샘플이 확률 ε 이하로 누락될 수 있는 ‘실현 가능한 ε‑오염’ 모델에서 평균 추정의 샘플 복잡도와 계산 복잡도 사이에 근본적인 격차가 존재함을 증명한다. 통계적 질의(SQ) 모델을 이용한 하한과, 그 하한에 거의 일치하는 샘플‑시간 트레이드오프를 제공하는 알고리즘을 제시한다.

저자: Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas

**1. 연구 배경 및 문제 정의** 통계학에서 가장 기본적인 가정은 관측치가 독립·동일분포(i.i.d.)라는 점이다. 실제 데이터는 종종 누락값(missing data) 때문에 이 가정이 깨진다. 누락 메커니즘은 MCAR(완전 무작위), MAR(관측값에만 의존), MNAR(임의 의존) 등으로 구분된다. 최근 Ma et al. (2024)은 MCAR와 MNAR 사이에 위치하는 ‘실현 가능한 ε‑오염(realizable ε‑contamination)’ 모델을 제안했다. 이 모델에서는 각 샘플 x 가 확률 r(x)∈

실현 가능한 오염 하에서 고차원 가우시안 평균 추정의 정보‑계산 격차

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기