불완전 데이터에서 베이지안 네트워크 파라미터 학습을 향상시키는 두 가지 전략

본 논문은 베이지안 네트워크(BN)의 파라미터 학습 문제를 다루며, 특히 데이터에 결측치가 존재하는 상황에서 기존 EM 기반 최대점수 선택 방식의 한계를 지적한다. 서론에서는 BN 구조가 고정된 상태에서 MAR 가정 하에 결측 데이터가 로그우도 함수를 비볼록하게 만든다는 점을 설명하고, 다중 초기값에서 EM을 실행해 가장 높은 점수를 얻은 파라미터를 선택하는 관행이 과적합과 모델 불확실성을 동시에 초래한다는 문제를 제기한다. 방법론 파트에서는 두 가지 대안을 제시한다. 첫 번째는 **최대 엔트로피 접근**이다. 점수가 전체 최댓값의 일정 비율(c·s*) 이상인 후보 집합을 정의하고, 그 중 엔트로피를 최대화하는 파라미터를 선택한다. 엔트로피는 정보량이 최소인 가장 보수적인 분포를 의미하므로, 고점수 후보들 사이에서 과도한 정보에 의존하는 것을 방지한다. 구현은 두 단계로 나뉜다. (i) 다중 EM 실행 후 점수가 높은 후보들을 필터링하고, 각 후보의 엔트로피를 계산해 최대값을 선택하는 간단한 방법, (ii) 점수 제약을 비선형 최적화 문제에 직접 포함시켜 연속적인 최적화 솔버로 풀어 보다 정밀한 해를 구하는 방법이다. 두 번째는 **베이지안 모델 평균(BMA) 접근**이다. 기존 BMA는 전체 모델 집합에 대해 사후 확률을 가중치로 하여 예측을 평균한다. 그러나 BN 구조가 고정된 상황에서 전체 조인트 분포를 평균하면 구조적 인수분해가 깨져 실용성이 떨어진다. 이를 해결하기 위해 저자는 각 변수 X_j와 그 부모 조합 π_j에 대해 EM마다 얻은 조건부 확률표 p(x_j|π_j)를 독립적으로 평균한다. 가중치는 각 EM 실행의 점수(또는 사후 확률)와 비례한다. 이렇게 하면 단일 BN 형태의 CPT를 얻을 수 있어, 기존 추론 엔진에 바로 적용 가능하다. 실험 섹션에서는 세 가지 네트워크(Asia, Alarm, 무작위 생성)와 두 가지 샘플 크기(100, 200), 두 가지 결측 비율(30%, 60%)를 조합해 총 12가지 설정을 만든다. 각 설정마다 300번의 독립 실험을 수행했으며, 각 실험은 (a) 참 파라미터를 무작위로 샘플링, (b) 완전 데이터를 생성, (c) MCAR 방식으로 결측을 삽입, (d) 30번의 서로 다른 초기값으로 EM을 실행, (e) MAP, 엔트로피, BMA 세 방법으로 파라미터를 추정한다. 평가 지표는 (1) 전체 조인트 분포와 참 분포 사이의 KL 발산, (2) leaf 노드들의 주변 결합 분포와 참 분포 사이의 KL 발산이다. 비모수적 Friedman 검정과 1% 유의수준의 Tukey HSD 사후 검정을 통해 방법 간 차이를 통계적으로 검증하였다. 결과는 두 새로운 방법이 모두 MAP보다 낮은 KL을 기록했으며, 특히 BMA가 대부분의 설정에서 가장 낮은 KL을 보였다. 엔트로피 방법도 비선형 최적화 구현 시 BMA와 거의 동등한 성능을 보였으며, 단순히 EM 후보 중 엔트로피를 선택하는 방식은 약간 낮은 성능을 보였지만 여전히 MAP보다 우수했다. 이러한 결과는 고점수 후보만을 선택하는 전통적 전략이 실제 예측 정확도를 보장하지 못한다는 점을 실증한다. 논의에서는 엔트로피 접근이 과적합을 억제하는 보수적 특성을, BMA가 모델 불확실성을 자연스럽게 반영하면서도 단일 BN 형태를 유지하는 실용성을 강조한다. 또한 두 방법 모두 기존 EM 구현 위에 최소한의 추가 코드만 필요하므로 현재 상용 BN 툴킷에 바로 통합 가능하다는 점을 강조한다. 마지막으로 향후 연구 방향으로는 더 복잡한 결측 메커니즘(MNAR)이나 연속형 변수에 대한 확장, 그리고 대규모 네트워크에서의 효율적인 비선형 최적화 알고리즘 개발을 제시한다.

불완전 데이터에서 베이지안 네트워크 파라미터 학습을 향상시키는 두 가지 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기