약물과 의료조건 간 관계 탐색 OMOP 2010 챌린지 우승 전략

본 논문은 Observational Medical Outcomes Partnership(OMOP)에서 제공한 1천만 명 환자 규모의 시뮬레이션 데이터베이스를 활용해, 약물과 의료조건 사이의 숨겨진 연관성을 비지도 학습 방식으로 탐지하는 방법을 상세히 기술한다. 연구 배경으로는 기존의 사후 보고 시스템이 자발적 보고에 의존해 신호 탐지가 늦고, 전처리된 대규모 전자건강기록(EHR) 데이터의 활용이 미비하다는 점을 들며, OMOP Cup이 이러한 문제를 해결하기 위한 알고리즘 개발 촉진을 목표로 한다는 점을 설명한다. 데이터는 10년 관찰 기간 동안 각 환자의 약물 복용 시작·종료일과 질환 발생일을 포함한다. 약물 종류는 5,000가지, 질환은 4,519가지이며, 전체 가능한 약물‑조건 조합은 약 2.26 × 10⁷ 개이다. 라벨이 제공된 소규모 검증 집합(4,000 + 3,920)은 학습에 사용되지 않았다. 연구는 크게 네 단계로 전개된다. 첫 번째는 Disproportionality Analysis(DPA) 기반의 기본 점수 계산이다. 여기서는 약물 복용 시점 이후 Δ(30–60일) 내에 질환이 발생한 경우의 관측 횟수 d_cn을 구하고, 약물과 질환 각각의 전체 발생 빈도(d_n, c_n)를 이용해 기대 횟수 λ를 독립 가정 하에 추정한다. λ는 (d_n·c_n·Δ)/N 형태이며, N은 전체 환자 수이다. 관측/기대 비율을 로그 또는 거듭제곱 변환 f와 평활 파라미터 α(0.5–1.0)로 조정해 α_dc 점수를 산출한다. 두 번째 단계에서는 시간 구간을 연도별로 나누어(전체 10년을 m=10 구간) 각 구간별 α_dc를 재계산한다. 이는 데이터가 누적될수록 신호가 어떻게 변하는지를 파악하게 해 주며, Challenge 2의 “시간 누적 평가” 요구에 부합한다. 핵심 혁신은 동일한 DPA 모델을 랜덤 서브샘플링( bagging )을 통해 다수의 베이스 학습기( k=100 )로 확장하고, 이를 평균화해 최종 점수를 도출하는 동질 앙상블이다. 샘플 재표집은 γ∈U

약물과 의료조건 간 관계 탐색 OMOP 2010 챌린지 우승 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기