모델 복잡도와 자유도는 같은 것이 아니다

본 논문은 통계학에서 널리 쓰이는 “유효 자유도(Effective Degrees of Freedom)”가 모델 복잡도와 일치하지 않으며, 특히 비볼록 제약을 갖는 추정 방법에서는 자유도가 모델 차원을 넘어 무한대로 커질 수 있음을 이론과 시뮬레이션을 통해 보여준다.

저자: Lucas Janson, William Fithian, Trevor Hastie

모델 복잡도와 자유도는 같은 것이 아니다
본 논문은 통계학 및 머신러닝 분야에서 널리 사용되는 “유효 자유도(Effective Degrees of Freedom, DF)” 개념이 모델 복잡도와 동일시되는 전통적 직관에 도전한다. 저자들은 DF와 모델 복잡도가 반드시 일치하지 않으며, 특히 비볼록 제약을 갖는 추정 방법에서는 DF가 모델 차원을 크게 초과하고 심지어 무한대로 발산할 수 있음을 이론적 분석과 시뮬레이션을 통해 체계적으로 보여준다. 1. **배경 및 정의** - 고전적인 선형 회귀에서는 자유도 p가 설계 행렬 X의 열공간 차원과 동일하고, 잔차 자유도 n‑p와 연결된다. 이는 RSS의 분포와 편향‑분산 트레이드오프를 정량화하는 데 핵심적인 역할을 한다. - Efron(1986)이 제안한 “효과적 자유도”는 \(\mathrm{DF}= \frac{1}{\sigma^{2}}\sum_{i=1}^{n}\operatorname{Cov}(y_i,\hat y_i)\) 로 정의되며, 훈련 RSS와 테스트 오차 사이의 낙관성(optimism)을 측정한다. 선형 방법에서는 \(\mathrm{DF}= \operatorname{tr}(H)\)와 일치하지만, 비선형·비볼록 방법에서는 이 값이 직관과 크게 달라질 수 있다. 2. **비볼록 베스트 서브셋 회귀 예시** - 2차원 공간에서 두 개의 일변량 회귀 모델 중 최적을 선택하는 베스트 서브셋 회귀(모델 크기 k=1)를 고려한다. 이 경우 모델 복잡도는 1이지만, 평균 벡터 \(\mu\)가 대각선으로 멀어질수록 DF가 2를 넘어 7, 심지어 무한대로 증가한다는 열지도를 제시한다. 이는 “선택된 변수 수”와 자유도가 일대일 대응하지 않음을 명확히 보여준다. 3. **무한 자유도 사례** - \(n=p=2\)인 상황에서 설계 행렬을 스칼라 \(A\)배한 단위 행렬로 두고, 베스트 서브셋 1(단일 변수 선택) 방법을 적용한다. \(A\)가 커질수록 (예: \(A=10^{4}\)) 자유도가 약 5,600에 달한다. 식 (10)을 통해 이 현상을 엄밀히 증명하고, Monte‑Carlo 실험으로 시뮬레이션 결과와 일치함을 확인한다. 이는 자유도가 관측 차원이나 파라미터 수와 무관하게 무한히 커질 수 있음을 의미한다. 4. **기하학적 직관** - 비볼록 제약 집합에 대한 최소제곱 투영은 데이터가 작은 잡음에도 불구하고 여러 서로 떨어진 최적점으로 이동할 수 있다. 이때 \(\hat y\)의 변동성은 잡음 수준과 무관하게 유지되며, 공분산이 크게 증가해 DF가 폭발한다. 반면, 볼록 집합(예: Lasso, Ridge)에서는 DF가 집합 차원을 초과하지 않는 기존 결과와 일치한다. 5. **실험적 검증** - 50개의 관측치와 15개의 변수로 구성된 고차원 시뮬레이션에서도 베스트 서브셋 회귀와 전진 단계별 회귀(Forward Stepwise) 모두 일부 k값에서 DF가 전체 변수 수(p=15)를 초과함을 확인한다. 이는 비볼록 제약이 아닌 경우에도 자유도가 모델 차원을 초과할 수 있음을 시사한다. 6. **시사점 및 결론** - 자유도는 모델 복잡도를 정량화하는 메타포로서 제한적이며, 특히 비볼록 제약을 갖는 방법에서는 자유도가 모델 차원을 넘어 무한히 커질 수 있음을 경고한다. 따라서 Mallows’ Cp, AIC, BIC 등 자유도를 기반으로 한 모델 선택 기준을 적용할 때는 해당 방법이 비볼록 제약을 포함하는지, 자유도와 실제 복잡도 사이의 관계가 어떻게 변하는지를 반드시 검토해야 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기