IOAgent LLM 기반 HPC I/O 진단을 대중화하다

본 논문은 고성능 컴퓨팅(HPC) 환경에서 데이터 집약형 애플리케이션이 겪는 I/O 성능 저하 문제를 전문가 없이도 자동으로 진단할 수 있는 시스템, IOAgent를 제안한다. 기존에는 Darshan과 같은 I/O 프로파일링 도구가 제공하는 방대한 트레이스 데이터를 인간 전문가가 수작업으로 분석해야 했으며, 이는 전문가 인력 부족과 트레이스 규모가 커짐에 따라 병목이 되었다. 최근 대형 언어 모델(LLM)의 급격한 발전은 이러한 문제를 자동화할 수 있는 가능성을 열었지만, LLM이 직면한 세 가지 핵심 한계—긴 컨텍스트 윈도우 제한, 도메인 특화 지식 부족, 그리고 환각 현상—가 HPC I/O 진단에 직접 적용하기엔 큰 장애물이었다. IOAgent는 이러한 한계를 극복하기 위해 세 가지 핵심 설계를 도입한다. 첫째, “모듈 기반 전처리” 단계에서는 Darshan 트레이스를 파일, I/O 인터페이스(POSIX, MPI‑IO, STDIO), 시간 구간 등 논리적 모듈로 분할하고, 각 모듈에 대해 데이터 양, 연산 횟수, 평균 지연, 스트라이프 정보 등 핵심 메트릭을 요약한다. 이 과정은 원본 트레이스의 수백만 라인 정보를 수십 개 토큰 수준으로 압축해 LLM이 한 번에 처리할 수 있게 만든다. 둘째, “RAG 기반 도메인 지식 통합” 단계에서는 사전에 구축된 HPC I/O 지식 베이스(논문, 매뉴얼, 기존 진단 사례)를 활용한다. 질의가 발생하면 관련 문서를 검색해 컨텍스트에 삽입함으로써, LLM이 일반 언어 지식이 아닌 최신 HPC I/O 전문 지식을 기반으로 추론하도록 한다. 셋째, “트리 기반 병합·자기반성” 메커니즘은 각 모듈별 진단 결과를 독립적인 서브 트리로 생성하고, 상위 노드에서 서로 교차 검증한다. 불일치가 발견되면 해당 서브 트리를 재질문하고, 최종적으로 가장 일관된 결론만을 선택해 출력한다. 이 과정은 LLM이 스스로 오류를 탐지하고 수정하도록 유도해 환각을 크게 억제한다. IOAgent의 성능을 검증하기 위해 저자들은 40여 개의 Darshan 트레이스를 라벨링한 새로운 벤치마크 “TraceBench”를 공개하였다. 각 트레이스는 최소 두 명 이상의 I/O 전문가가 확인한 이슈 라벨을 포함하고 있어, 자동 진단 도구의 정확성을 객관적으로 평가할 수 있다. 실험 결과, IOAgent는 기존 히스토리 기반 트리거 도구인 Drishti와 LLM 기반 ION에 비해 정확도, 진단 설명의 명료성, 커버리지 모두에서 평균 12%~18% 향상을 보였다. 특히 MPI‑IO와 POSIX‑IO가 혼재된 복합 패턴, 파일 스트라이프 불균형, 메타데이터 과다 호출 등 복합적인 이슈를 식별하는 데 뛰어났다. 또한 GPT‑4o, Claude‑2, 오픈소스 Llama‑2‑70B 등 서로 다른 모델에 적용했을 때 성능 차이가 미미함을 확인, 특정 모델에 종속되지 않는 설계임을 입증하였다. 한계점으로는 현재 Darshan DXT와 같은 고해상도 트레이스는 지원하지 않으며, 전처리 단계에서 선택된 요약 메트릭이 사전 정의된 점이다. 새로운 I/O 패턴이 등장하면 요약 로직을 업데이트해야 하는 운영 부담이 있다. 또한 RAG에 사용되는 지식 베이스가 최신 논문과 시스템 업데이트를 지속적으로 반영해야 하며, 이는 유지보수 비용을 증가시킬 수 있다. 결론적으로 IOAgent는 “LLM + 도메인 지식 + 구조화된 병합”이라는 삼중 접근법을 통해 HPC I/O 진단을 자동화하고, 비용 효율적인 오픈소스 모델에서도 신뢰할 수 있는 결과를 제공한다는 점에서 큰 의미가 있다. 향후 파일 시스템 다양화와 실시간 프로파일링을 연계한다면, 실시간 I/O 튜닝 어시스턴트로 확장될 가능성도 기대된다.

IOAgent LLM 기반 HPC I/O 진단을 대중화하다

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기