연령별 로지스틱 회귀와 복합 사건 시간 데이터 분석

본 연구는 여성 소아암 생존자에서 조기 난소 기능 부전(POI)의 연령별 위험을 정량화하고 예측하기 위해, 기존의 연속시간 생존 분석이나 이산 위험 모델이 갖는 한계를 극복하고자 연령을 시간 척도로 하는 로지스틱 회귀 모델을 직접 적용한다. 모델식 (1)은 특정 연령 t₀에서 “T ≤ t₀”인 사건 발생 확률을 로그오즈 형태로 표현하며, α(t₀)와 β(t₀)라는 연령별 절편·기울기를 추정한다. 그러나 실제 데이터는 암 진단 연령 V와 검열 연령 C가 존재하는 이중 검열 구조를 띠므로, 관측된 사건 연령 T는 좌·우 검열에 의해 부분적으로만 관측된다. 이를 해결하기 위해 저자들은 역확률 가중(IPCW) 전략을 두 가지 변형으로 제시한다. 첫 번째 접근법(A)는 Im et al.(2023)의 IPCW 가중식을 수정해, 좌 검열을 반영하는 I(t₀ ≥ Vᵢ) 인디케이터와 검열 가중치 Wᵢ(t₀; G)를 결합한다. 여기서 G(c|Z)=P(C ≥ c|Z) 는 조건부 검열 생존함수이며, Wᵢ(t₀; G)=I(Uᵢ ≤ t₀)δᵢ / G(Uᵢ|Zᵢ)+I(Uᵢ > t₀) / G(t₀|Zᵢ) 로 정의된다. 이 가중치는 검열된 관측치를 제외하고 추정함으로써, 검열 비율이 낮을 때 효율적이다. 두 번째 접근법(B)는 outcome‑weighted IPCW를 도입한다. 기존 IPCW가 검열된 피험자를 완전히 배제하는 반면, 방법 B는 검열된 경우에도 가중치 Wᵢ(t₀; G)를 사용해 관측된 사건 여부 I(Tᵢ ≤ t₀)와 곱함으로써 정보를 활용한다. 이는 검열이 무거운 상황에서 표본 효율을 크게 높이며, 무편향성을 유지한다. 두 방법 모두 사건 시간과 검열 시간이 공변량 Z에 조건부 독립이라는 가정 하에 무편향 추정량을 제공하고, 정규성 및 일관성을 보인다. 방법들의 asymptotic 효율성을 비교하기 위해 저자들은 추정 함수의 기울기 행렬 Γ와 변동 행렬 Σ를 도출하고, 두 접근법의 공분산 차이를 식(7)로 표현한다. 여기서 Γ_A = Γ_B 임을 이용해 차이가 Σ_B − Σ_A 형태로 나타나며, 이는 검열 정보를 활용한 B가 일반적으로 더 작은 분산을 갖는다는 이론적 근거를 제공한다. 실제 적용을 위해서는 검열 분포 G(c|Z)를 추정해야 하는데, 세 가지 방법을 시험한다. (1) 생존 랜덤 포레스트(SRF)는 비선형·고차원 관계를 포착하는 머신러닝 기법으로, 하이퍼파라미터 튜닝을 통해 검열 위험을 정밀히 추정한다. (2) 층화 경험적 누적분포함수(ECDF)는 연속형 공변량 Z₁을 사분위수로 구분해 조건부 검열 분포를 근사한다. (3) Cox 비례위험 모델은 기본형과 gap‑time 변형(진단 후 최소 5년 생존을 전제로 C* = C − (V+5) 정의) 두 가지 형태로 적용한다. 시뮬레이션 결과는 SRF가 가장 안정적인 추정치를 제공하며, 특히 검열 비율이 30% 이상일 때 방법 B와 결합했을 때 평균 제곱오차가 현저히 감소한다는 점을 보여준다. 분산 추정에 있어 방법 A는 전통적인 샌드위치 추정식(8)을 그대로 사용할 수 있지만, 방법 B는 가중치에 검열 분포 추정오차가 포함돼 복잡한 이중 변동성을 가진다. 저자들은 이를 근사하기 위해 부트스트랩을 활용하거나, 두 번째 항을 무시한 보수적 샌드위치 식(10)을 제안한다. 실증 분석에서는 두 추정법 모두 부트스트랩 표준오차와 일치하는 결과를 보여, 제안된 근사식이 실무에 충분히 적용 가능함을 확인한다. 실제 데이터는 CCSS(Childhood Cancer Survivor Study)에서 추출한 5년 이상 생존한 소아암 생존자 5,000여 명을 대상으로 한다. 주요 공변량은 암 진단 연령, 치료 유형(골반 방사선, 알킬화제), 흡연 여부 등이다. 분석 결과, 연령 30세 전후에 POI 위험이 급격히 상승하며, 골반 방사선과 알킬화제 치료를 받은 그룹에서 위험이 현저히 높았다. 또한, 연령별 β(t) 추정값이 20대 초반에는 거의 0에 가깝지만 30대 이후 급격히 양의 값을 보이는 등, 연령에 따른 위험 변화 양상이 명확히 드러났다. 두 접근법 모두 유사한 추정값을 제공했지만, 검열 비율이 40% 이상인 연령 구간에서는 방법 B가 더 작은 표준오차를 보였다. 결론적으로, 이 논문은 연령특이적 로지스틱 회귀 모델을 이중 검열 데이터에 적용하는 새로운 통계적 프레임워크를 제시하고, IPCW 기반 두 가지 추정법을 통해 검열 정보 활용 정도에 따른 효율성 차이를 체계적으로 분석하였다. 특히 검열 분포 추정에 머신러닝(SRF)을 도입하고, outcome‑weighted IPCW를 활용함으로써 고위험 소아암 생존자군의 장기 부작용 예측 정확도를 크게 향상시킬 수 있음을 입증하였다. 향후 연구에서는 다변량 고차원 공변량을 포함한 확장 모델과, 검열 분포 추정에 베이지안 방법을 적용하는 방안을 탐색할 수 있다.

연령별 로지스틱 회귀와 복합 사건 시간 데이터 분석

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기