다변량 회귀와 제약조건을 활용한 최대 상관 모델링

본 논문은 전통적인 단일 종속변수 회귀를 넘어, 종속·독립 변수 모두 다중으로 구성된 선형 결합을 만들고, 그 상관을 최대화하는 방법을 제시한다. 제약조건을 직접 삽입할 수 있는 스프레드시트 기반 최적화 절차를 설명하고, 최소제곱법과 비교해 스케일 불변성과 해석 가능성을 강조한다. 교육청 데이터 예시를 통해 실제 적용 과정을 보여준다.

저자: Chris Tofallis

본 논문은 다변량 데이터 분석에서 종속변수와 독립변수를 각각 다중으로 포함하는 단일 방정식 모델을 구축하는 새로운 방법을 제시한다. 전통적인 다중 회귀는 하나의 종속변수에만 초점을 맞추어 변수 간 상호작용이나 다중 종속변수를 동시에 다루기 어렵다. 이를 보완하기 위해 저자는 ‘Maximum Correlation Modelling(최대 상관 모델링)’이라는 접근법을 도입한다. 이 방법은 두 집합의 변수들을 각각 선형 결합한 복합변수 X와 Y를 정의하고, 이들 사이의 피어슨 상관계수를 최대화하는 것이 목표이다. 핵심 이론적 배경은 정준 상관 분석(Canonical Correlation Analysis, CCA)이다. CCA는 두 변수 집합 사이의 선형 조합을 찾아 상관을 최대화하지만, 전통적인 구현은 고유값 문제를 풀어야 하며, 가중치에 대한 부호·크기 제약을 직접 반영하기 어렵다. 저자는 이를 해결하기 위해 CCA 문제를 ‘제약조건 최적화’ 형태로 재구성한다. 즉, 가중치들을 결정 변수로 두고, 목표 함수는 X와 Y 사이의 상관계수이며, 사용자는 필요에 따라 가중치에 비음성, 순서, 합계 등 다양한 제약을 추가할 수 있다. 실제 구현은 마이크로소프트 엑셀(또는 유사 스프레드시트)의 Solver 기능을 이용한다. 데이터는 열마다 변수로 배치하고, 가중치를 저장할 행을 별도로 만든다. X와 Y는 각각 가중치와 변수들의 가중합으로 계산되며, 별도 셀에 CORREL 함수를 이용해 상관계수를 구한다. Solver 대화상자에서 목표 셀(상관계수 최대화), 변화 셀(가중치), 그리고 제약식(예: 가중치 비음수, b₁≥b₂≥b₃ 등)을 입력한다. 자동 스케일링과 수렴 파라미터를 적절히 설정하면, 전역 최적해에 근접한 결과를 얻을 수 있다. 논문은 또한 최소제곱법과의 비교를 통해 두 접근법의 차이를 명확히 한다. 최소제곱법은 특정 계수를 1로 고정하고(정규화) 종속변수를 선택해 회귀를 수행한다. 이때 선택된 종속변수에 따라 모델이 달라지며, 단위 변환에 따라 결과가 변한다(스케일 의존성). 반면 최대 상관 모델링은 가중치를 전체적으로 조정해 X와 Y 사이의 상관을 직접 최적화하므로, 변수 단위가 바뀌어도 계수는 비례적으로 변할 뿐 모델 자체는 동일하게 유지된다(스케일 불변성). 실제 적용 사례로 96개 영국 지방 교육청(LEA)의 시험 성적과 사회경제·인구 변수들을 사용한다. 종속변수는 세 가지 시험 성취 지표(y₁, y₂, y₃)이며, 독립변수는 교육비, 비수공업 가구 비율, 주거 환경, 외국인 비율, 인구 밀도와 그 제곱항 등이다. 목표는 y₁·b₁ + y₂·b₂ + y₃·b₃ 형태의 종합 성적 지표 Y를 만들고, b₁≥b₂≥b₃라는 제약을 부여한다. Solver를 통해 얻은 최적 가중치는 Y = 2.871·y₁ + 1·y₂ + 1·y₃, X = 0.0071·x₁ + 0.471·x₂ + 0.432·x₃ – 0.0083·x₄ + 0.1007·x₅ – 0.0025·x₆이며, 두 복합변수 간 상관계수는 0.9023으로 매우 높다. 해석에서는 외국 출신 학생 비중이 높을수록 성적이 상승하는 등, 정책적 인사이트를 도출한다. 논문의 결론은 다음과 같다. (1) 최대 상관 모델링은 CCA의 이론적 강점을 유지하면서도 스프레드시트 수준의 간단한 도구로 구현 가능하다. (2) 제약조건을 자유롭게 삽입함으로써 이론적 혹은 실무적 요구사항을 만족하는 모델을 만들 수 있다. (3) 최소제곱법과 달리 스케일 불변성을 가지므로 변수 단위가 바뀌어도 모델이 일관된다. (4) 계산 비용이 낮아 비전문가도 손쉽게 적용할 수 있다. 따라서 다양한 분야—교육, 환경, 천문학 등—에서 복합 지표를 만들고 변수 간 관계를 탐색하는 데 유용한 도구가 될 것이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기