그리드 분할 데이터에 대한 프라이버시 보장 ID3 알고리즘

** 논문은 프라이버시 보존 데이터 마이닝의 두 주요 분산 형태인 수평(horizontal)과 수직(vertical) 데이터를 확장하여, 두 형태가 동시에 존재하는 ‘그리드(grid) 분할 데이터’를 정의한다. 수평 분할은 동일한 속성 집합을 서로 다른 레코드 집합에 걸쳐 보유하는 경우이며, 수직 분할은 동일한 레코드 집합에 대해 서로 다른 속성 집합을 보유하는 경우이다. 그리드 분할은 이 두 조건이 모두 만족되는 상황으로, 실제 금융, 의료, 전자상거래 등에서 다수 기관이 서로 다른 서비스와 고객군을 공유하면서도 데이터는 부분적으로 겹치는 경우에 해당한다. 먼저 저자들은 수평 분할 데이터에 대한 기존 연구가 두 파티에 국한된 점을 지적하고, 다수 파티(k > 2)를 지원하는 새로운 ID3 알고리즘을 설계한다. 핵심은 각 파티가 로컬 데이터에 대해 엔트로피와 정보 이득을 계산하고, 이를 안전하게 합산·비교하는 프로토콜이다. 이를 위해 ‘Secure Sum’, ‘Yao Circuit’, ‘Secure Union’, ‘Secure Intersection Size’, ‘Secure Logarithm’ 등 여러 SMPC 기본 프로토콜을 조합한다. 모든 연산은 반정직 모델을 가정하므로, 파티들은 프로토콜을 정확히 따르지만 실행 중에 관찰한 중간값을 저장해도 추가 정보를 얻을 수 없다. 그리드 분할 데이터에 대해서는 두 가지 평가 방법을 제시한다. 첫 번째 방법은 먼저 수평 파티들을 합쳐 전체 레코드 집합을 재구성하고, 그 후 수직 파티들 간에 속성 집합을 연합하여 정보 이득을 계산한다. 두 번째 방법은 반대로 수직 파티들을 먼저 합쳐 속성 프로젝션을 만든 뒤, 수평 파티들 간에 레코드 집합을 결합한다. 두 방법 모두 동일한 최종 의사결정 트리를 생성하지만, 연산 순서에 따라 필요한 안전 연산의 종류와 횟수가 달라진다. 복잡도 분석에서는 각 단계에서 발생하는 ‘Secure Sum’, ‘Secure Intersection’, ‘Secure Union’ 연산의 시간·통신 복잡도를 수식으로 정리한다. 수평 먼저 → 수직 방법은 레코드 수 N과 파티 수 v·h에 대해 O(v·h·log N) 수준의 통신 라운드와 O(v·h·N) 연산을 요구한다. 반면 수직 먼저 → 수평 방법은 교집합 연산이 레코드와 속성 모두에 대해 중복 발생하므로 O((v·h)²·log N) 라운드가 필요해 비용이 급격히 증가한다. 따라서 저자들은 전자가 실용적인 환경에서 더 효율적이라고 결론짓는다. 관련 연구로는 Lindell & Pinkas의 수평 다중 파티 ID3, Du & Zhan의 수직 전용 ID3이 있다. 이들 연구는 각각 하나의 분산 형태에만 초점을 맞추었으며, 파티 수가 제한적이었다. 본 논문은 이를 일반화하여 다중 파티와 그리드 구조를 동시에 다루며, 보안 모델을 명시적으로 반정직으로 설정해 실용성을 강조한다. 또한, 금융 기관 간 협업 시나리오를 구체적으로 제시하여, 은행, 신용카드사, 투자사 등이 서로 다른 서비스 데이터를 결합해 사기 탐지 모델을 공동 학습하면서도 개별 고객 정보를 노출하지 않을 수 있음을 보여준다. 마지막으로 논문은 실험적 검증 대신 이론적 복잡도 분석에 집중한다. 향후 연구에서는 실제 데이터셋을 이용한 성능 평가, 악의적 모델에 대한 강화된 프로토콜, 그리고 연속적인 모델 업데이트(온라인 학습) 등에 대한 확장이 필요하다고 제언한다. **

그리드 분할 데이터에 대한 프라이버시 보장 ID3 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기