선형 모델의 200년 역사와 가정의 변천

이 논문은 일반 선형 모델(General Linear Model, GLM)의 200년 흐름을 세 단계로 구분하여 서술한다. 첫 번째 단계는 1805년 레전드르가 제시한 최소제곱법으로, 천문학·측지학에서 관측오차가 주된 변동원인이라는 전제 하에 오류항을 정규분포(i.i.d.)로 가정했다. 당시 ‘오류의 법칙(Law of Errors)’은 실험적 검증을 통해 널리 받아들여졌으며, 중앙극한정리와 일치한다는 점에서 통계적 정당성을 확보했다. 레전드르의 모델은 관측값을 결정론적 선형 결합과 무작위 오차의 합으로 표현했으며, 이때 오차는 평균 0, 분산 σ²인 정규분포를 따른다. 두 번째 단계는 1920년대 피셔가 농업·생물학 데이터에 GLM을 적용하면서 시작된다. 피셔는 모집단이 정규분포를 따른다는 가정을 도입했지만, 실제 생물학적 변이는 관측오차 외에 개체 간 이질성, 환경 요인 등 복합적인 원인으로 구성된다. 피셔는 ‘정규성 가정은 경험에 기반한다’고 주장했지만, 피어슨과 고셋은 그의 저서에서 정규성 가정이 충분히 명시되지 않았으며, 특히 분산분석(F‑test)과 같은 검정이 정규성에 매우 민감함을 지적했다. 피어슨은 피셔의 표가 “정규성 가정이 없으면 정확성을 주장할 수 없다”고 비판했으며, 이는 통계적 검정의 제1종 오류와 검정력에 직접적인 영향을 미친다. 피셔는 이후 편향되지 않은 추정량을 얻기 위해 ‘정규성에 대한 강건성(robustness)’을 강조했지만, 실제로는 평균 검정은 어느 정도 강건했으나 분산 검정은 크게 취약했다는 것이 후속 시뮬레이션 연구에서 확인되었다. 세 번째 단계는 1930‑40년대 사회과학 분야로의 확장이다. 사회현상은 비대칭·중첨도(heavy‑tailed) 특성을 자주 보이며, 정규분포 가정은 점점 부적절해졌다. 피어슨은 이러한 필요성을 인식하고 감마·베타·카이제곱 등 다양한 확률분포 체계를 제안했지만, GLM 자체는 여전히 정규성 전제를 유지했다. 결과적으로 사회과학 연구자들은 모델 가정을 검증하지 않은 채 회귀계수와 p‑값을 해석했으며, 이는 통계적 오용을 초래했다. 논문은 이러한 오용을 ‘가정의 무시’와 ‘모델의 과도한 일반화’로 규정한다. 논문은 또한 통계 모델의 일반적 특성을 논의한다. 모델은 현실을 단순화한 수학적 추상화이며, 가정이 깨질 경우 추론은 신뢰성을 잃는다. 오류항이 독립·동분포가 아닌 경우(예: 시계열 상관, 군집 구조, 이질성) 최소제곱 추정량은 편향·비효율적이며, 표준 오류와 검정 통계량도 잘못된 결론을 초래한다. 현대 통계학에서는 이러한 문제를 해결하기 위해 일반화 선형 모델(GLM), 혼합효과 모델, 부트스트랩, 베이지안 접근법 등이 개발되었지만, 원 논문의 역사적 교훈은 여전히 유효하다. 결론적으로, 일반 선형 모델은 천문학 → 생물학 → 사회과학으로 확장되면서 가정의 타당성이 지속적으로 재검토되었다. 각 단계에서 가정이 약화될수록 통계적 결론의 신뢰도가 감소하고, 이는 연구 설계와 데이터 분석 단계에서 가정 검증을 소홀히 하면 발생한다는 중요한 교훈을 제공한다. 논문은 통계적 방법론의 발전이 가정 검증과 모델 적합성 평가와 함께 이루어져야 함을 강조하며, 향후 연구자는 모델 선택 시 가정의 적합성을 면밀히 검토하고, 필요 시 비정규·비선형 모델을 고려해야 함을 제언한다.

선형 모델의 200년 역사와 가정의 변천

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기