새로운 PLS 경로 모델링 추정 방법

본 논문은 다수의 변수 그룹이 각각 하나의 잠재변수에 의해 생성된다고 가정하고, 이 잠재변수들이 선형 방정식으로 연결된 구조를 PLSPM(Partial Least Squares Path Modeling)으로 추정한다. 기존 PLSPM의 외부·내부 추정 절차를 비판하고, 그룹 내 강한 구조를 보다 유연하게 반영하는 새로운 외부 추정(선형·비선형 결과물)과, 변수 그룹 간 보완성을 활용하고 상호작용을 처리할 수 있는 새로운 내부 추정 방식을 제안한…

저자: Xavier Bry (I3M)

새로운 PLS 경로 모델링 추정 방법
**1. 연구 배경 및 목표** 다수의 변수 그룹이 각각 하나의 잠재변수에 의해 생성되고, 이 잠재변수들이 선형 방정식으로 연결된 구조를 분석하는 것이 현대 사회과학·경영학·공학 분야에서 흔히 사용된다. PLSPM은 이러한 잠재변수 모델을 추정하기 위한 대표적인 방법이지만, 기존 알고리즘은 외부 추정 단계에서 그룹 내 변수들의 단순 상관만을 이용하고, 내부 추정 단계에서는 부분 회귀계수를 충분히 활용하지 못한다는 비판이 제기되어 왔다. 본 논문은 이러한 한계를 극복하고, 변수 그룹 간 보완성을 최대한 활용하며, 설명변수 간 상호작용까지 모델링할 수 있는 새로운 추정 절차를 제안한다. **2. 기존 PLSPM 알고리즘 요약** - **초기화**: 각 잠재변수 \(v_r\)에 대해 해당 그룹의 첫 번째 주성분을 초기값으로 설정한다. - **내부 추정(Phase 1)**: 현재 잠재변수 추정값 \(F_r\)를 이용해, 다른 잠재변수 \(F_t\)와의 회귀계수 \(c_{tr}\)를 계산한다. 이때 \(c_{tr}\)는 \(F_r\)를 \(F_t\)에 대한 회귀계수(부분 효과) 혹은 단순 상관계수로 정의한다. - **외부 추정(Phase 2)**: 각 잠재변수 \(F_r\)를 해당 변수 그룹 \(X_r\)와의 단순 상관을 이용해 다시 업데이트한다. 구체적으로 \(F_r = X_r X_r' \, \text{st}(F_r)\) 형태가 사용된다. - **수렴**: 내부·외부 추정이 각각 안정화될 때까지 반복한다. 이 구조는 외부 추정이 그룹 내 강한 구조(공통성)를, 내부 추정이 잠재변수 간 인과관계를 반영하도록 설계되었지만, 두 단계가 서로 다른 목표를 추구하면서도 최종 추정값이 일치하지 않는 경우가 빈번하다. **3. 외부 추정의 개선: 결과물(Resulant) 개념** - **선형 결과물**: 행렬 \(X M X'\) (여기서 \(M\)은 가중치 행렬) 의 고유벡터와 고유값을 이용해 목표 변수 \(y\)를 각 주성분 방향으로 투영한다. \(\alpha\) 파라미터를 도입해 고유값을 \(\alpha\) 제곱 가중함으로써, 그룹 내 구조를 반영하는 정도를 조절한다. \(\alpha=0\)이면 구조를 무시하고, \(\alpha\to\infty\)이면 가장 강한 주성분에만 투영된다. - **가중치 행렬 \(M\)의 역할**: \(M\)을 \( (X'X)^{-1}\) 로 설정하면 결과물이 단순 상관과 동일해지며, 그룹을 서브그룹으로 나누고 각 서브그룹에 대해 \((X_r'X_r)^{-1}\) 로 가중하면 범주형 변수나 서로 다른 스케일을 가진 변수들을 동시에 다룰 수 있다. 또한, 서브그룹별 가중치 \(w_r\)를 고유값의 역수 등으로 설정해 각 서브그룹의 기여도를 균형 있게 조정한다. - **비선형 결과물**: 선형 결과물이 다차원 구조에서 목표 변수를 강한 첫 번째 주성분으로 끌어당기는 문제를 해결하기 위해, 각 변수와 목표 변수 사이의 상관을 \(\beta\) 제곱(보통 \(\beta=2k\), \(k\)는 정수)으로 가중한다. 이는 “근접성 보너스”를 제공해 목표 변수가 특정 번들(변수 묶음)과 가까울수록 해당 번들의 방향으로 더 크게 이동하도록 만든다. 비선형 결과물은 특히 변수 번들이 존재하고, 각 번들이 서로 약하게 상관될 때 유용하다. **4. 내부 추정의 개선** 기존 내부 추정은 각 잠재변수에 대해 다른 잠재변수들의 영향을 무시하고 단순 회귀계수만을 사용한다. 저자는 이를 **부분 상관 기반 내부 추정**으로 대체한다. 구체적으로: - 다중 방정식 시스템을 동시에 고려해 각 잠재변수 \(v_r\)에 대한 회귀계수 \(c_{tr}\)를 **부분 회귀**(다른 모든 잠재변수의 효과를 통제)로 계산한다. - 한 잠재변수가 여러 방정식에 등장할 경우, 해당 방정식들의 종속변수 추정값을 가중합해 업데이트한다. 가중치는 해당 방정식에서의 전체 상관계수(또는 결정계수)로 정한다. - 이렇게 하면 변수 그룹 간 보완성이 반영되고, 상호작용 항(예: \(v_i \times v_j\))도 동일한 프레임워크 내에서 추정 가능해진다. **5. 상호작용 효과와 모델 확장** 잠재변수 간 상호작용을 모델에 포함시키기 위해, 저자는 각 상호작용 항을 새로운 잠재변수로 간주하고, 기존 외부·내부 추정 절차를 그대로 적용한다. 이때 상호작용 잠재변수는 해당 두 잠재변수의 곱을 표준화한 뒤, 결과물 연산을 통해 그룹 내 구조를 반영한다. **6. 실증 적용 및 결과** 논문은 두 개의 실제 데이터 사례(예: 국가 수준의 보건·교육·부(wealth) 변수와 기업 경영 성과 데이터)를 사용해 제안된 방법을 검증한다. 결과는 기존 PLSPM 대비: - 잠재변수 추정의 수렴 속도가 빨라짐. - 설명력(예: \(R^2\) 및 적합도 지표)과 예측 정확도가 유의하게 향상됨. - 상호작용 효과가 명확히 드러나, 정책·전략 수립에 실용적인 인사이트를 제공함. **7. 결론 및 향후 연구** 새로운 외부·내부 추정 체계는 PLSPM의 근본적인 한계를 보완하고, 다차원·다변량 데이터에서 잠재변수 모델링을 보다 정교하게 수행할 수 있게 한다. 특히 \(\alpha\)와 \(\beta\) 파라미터를 통해 그룹 내 구조와 근접성을 조절함으로써, 연구자가 데이터 특성에 맞는 유연한 모델링이 가능해졌다. 향후 연구에서는 비선형 결과물의 최적 파라미터 선택 방법, 대규모 데이터에 대한 계산 효율성 개선, 그리고 베이지안 프레임워크와의 통합 등을 탐색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기