교차 검증 예측밀도 기반 선형 모델 선택의 점근 최적성

본 논문은 교차 검증 예측밀도의 로그 평균을 모델 선택 기준(CV)으로 삼아, 선형 회귀 모델군 중 최적 모델을 선택하고 선택된 모델의 최소제곱 예측값으로 미래 관측을 예측하는 방법을 제안한다. 제곱오차 손실 하에서 이 예측 절차가 진정한 회귀함수를 알 경우 최소 손실을 주는 ‘오라클’ 모델과 점근적으로 동일한 성능을 보임을 증명한다. σ²가 알려진 경우와 알려지지 않은 경우 모두에 대해 조건을 명시하고, 진정한 모델이 후보군에 포함될 때 일관…

저자: Arijit Chakrabarti, Tapas Samanta

이 논문은 선형 회귀 모델군에서 교차 검증(Cross‑Validation) 기반 예측밀도를 이용한 모델 선택 기준이 예측 손실 측면에서 점근적으로 최적임을 증명한다. 연구 배경은 관측값 y와 설계행렬 X가 주어졌을 때, 변수 선택에 의해 정의된 여러 부분 모델 α∈Aₙ을 고려한다는 점이다. 각 모델 α는 y∼N(μ(α)=X(α)β(α), σ²I) 이라는 정규선형 구조를 갖는다. 비주관적 사전 π(β) 또는 π(β,σ²) 를 사용해 사후분포를 구하고, 훈련 샘플(데이터의 일부)로부터 검증 샘플을 예측하는 교차 검증 예측밀도 f_α(y_{val}|y_{train}) 를 정의한다. 다양한 훈련‑검증 분할에 대해 기하 평균을 취한 로그값을 CV(α) 라 두고, 이를 최대화하는 모델 \hatαₙ을 선택한다. 선택된 모델에 대해 최소제곱 추정 \hatβ(α) 를 사용해 미래 복제 y_new 의 예측값 δ(y_n)=X(α)\hatβ(α) 를 만든다. 예측 성능은 제곱오차 손실 E_μ

교차 검증 예측밀도 기반 선형 모델 선택의 점근 최적성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기