대규모 클러스터 로그에서 이벤트 상관관계 마이닝을 위한 LogMaster

LogMaster는 노드·애플리케이션·이벤트 유형·심각도 등 다중 속성을 가진 시스템 로그에서 이벤트 간 상관관계를 추출하고, 이를 기반으로 장애를 예측하는 프레임워크이다. 슬라이딩 윈도우 기반의 신뢰도 지표와 Apriori‑LES/Apriori‑simiLES 알고리즘을 이용해 이벤트 규칙을 도출하고, 이벤트 상관관계 그래프(ECG)로 시각화·예측한다.

저자: Rui Ren, Xiaoyu Fu, Jianfeng Zhan

대규모 클러스터 로그에서 이벤트 상관관계 마이닝을 위한 LogMaster
본 논문은 클러스터 규모가 커짐에 따라 발생하는 다양한 장애를 사전에 탐지하기 위해, 로그 데이터의 고유한 특성을 반영한 이벤트 상관관계 마이닝 프레임워크인 LogMaster를 제안한다. 먼저 로그를 (타임스탬프, 로그 ID, 노드 ID, 이벤트 ID, 심각도, 이벤트 유형, 애플리케이션명, 프로세스 ID, 사용자 ID) 형태의 9‑튜플로 정형화한다. 이를 기반으로 n‑ary 로그 ID 시퀀스(LES)를 정의하고, 인접 부분집합과 서브셋 개념을 도입해 시간 순서를 보존하는 규칙 추출을 목표로 한다. LogMaster의 핵심은 두 가지 요소이다. 첫째, 슬라이딩 타임 윈도우 안에서 이벤트 간 발생 순서를 고려한 ‘신뢰도(confidence)’ 지표를 도입한다. 지원 횟수는 선행 이벤트가 후행 이벤트와 함께 나타난 횟수를, 후행 횟수는 후행 이벤트가 선행 이벤트 뒤에 나타난 횟수를 의미하며, confidence = support / posterior 로 계산한다. 둘째, 이 지표를 활용한 Apriori‑LES와 Apriori‑simiLES 알고리즘을 설계한다. Apriori‑LES는 전통적인 Apriori와 달리 인접 (k‑1)‑ary 부분집합이 모두 빈번할 때만 k‑ary 후보를 생성함으로써 후보 탐색 비용을 크게 낮춘다. Apriori‑simiLES는 실제 로그 분석 결과 대부분의 2‑ary 규칙이 동일 노드·애플리케이션·유형에 국한된다는 관찰에 기반해 2‑ary 규칙만을 추출하도록 제한, 실행 시간을 추가로 단축한다. 도출된 이벤트 규칙은 ‘이벤트 상관관계 그래프(ECG)’라는 추상화 구조에 매핑된다. ECG는 이벤트를 정점, 규칙을 방향성 간선으로 표현하며, 그래프 탐색을 통해 특정 선행 이벤트가 발생했을 때 연쇄적으로 발생할 가능성이 높은 후행 이벤트를 예측한다. 시스템 구현은 로그 에이전트(노드별 로그 수집·전처리), 로그 서버(규칙 마이닝·ECG 구축), 로그 데이터베이스(규칙·그래프 저장)로 구성된다. 두 실제 로그(Hadoop 260노드, 130 MB, 977 858 레코드; HPC 256노드, 31.5 MB, 433 490 레코드)를 대상으로 세 가지 시나리오(전체 이벤트 예측, 장애 이벤트만 예측, 비장애 이벤트 제거 후 장애 예측)를 수행했다. 실험 결과, 전체 이벤트 예측에서 정밀도 78.20 % (Hadoop), 81.19 % (HPC)를 달성했으며, 장애 전용 예측에서도 유사한 수준의 성능을 보였다. 논문은 기존의 빈번 아이템셋·시퀀스 마이닝 기법이 로그의 시간적·다중 속성 특성을 충분히 반영하지 못한다는 점을 지적하고, 제안된 메트릭과 알고리즘이 이러한 한계를 보완한다는 점을 강조한다. 다만, 시간 윈도우 크기와 임계값 설정에 대한 민감도 분석이 부족하고, 실시간 스트리밍 환경에서의 적용 방안이 구체적으로 제시되지 않은 점은 향후 연구 과제로 남는다. 전체적으로 LogMaster는 대규모 클러스터 로그에서 다중 속성을 고려한 상관관계 마이닝과 그래프 기반 예측을 통합한 최초의 시도이며, 장애 사전 탐지 및 자동 복구 시스템에 적용될 잠재력이 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기