LLM 기반 자동 피처 엔지니어링으로 Databricks 작업 실행 시간 예측 최적화

본 논문은 Databricks와 같은 클라우드 기반 데이터 레이크 환경에서 작업 실행 시간을 정확히 예측함으로써 비용 효율적인 리소스 오케스트레이션을 달성하고자 하는 문제에 접근한다. 기존의 LeJOT 프레임워크는 정적 피처와 전통적인 머신러닝 모델을 사용했지만, 파티션 프루닝, 조인 스키우, 셔플 증폭 등 런타임에만 드러나는 중요한 성능 신호를 충분히 반영하지 못했다. 이러한 한계는 피처 설계가 수동으로 이루어지고, 로그·메타데이터·스크립트 등 다양한 소스에서 정보를 수집해야 하는 복잡성을 야기한다. 이를 해결하기 위해 저자들은 ‘LeJOT‑AutoML’이라는 에이전트 기반 AutoML 파이프라인을 설계하였다. 파이프라인은 크게 두 단계, 즉 학습 단계와 추론 단계로 구분된다. 학습 단계에서는 다섯 개의 핵심 컴포넌트가 순차적으로 동작한다. 첫 번째인 Feature Analyzer Agent(FAA)는 작업 스크립트, 실행 로그, 메타데이터, 그리고 사전 구축된 도메인 지식 베이스(K)를 입력으로 받아, Retrieval‑Augmented Generation(RAG) 기법을 통해 작업에 적합한 피처 템플릿을 자동 생성한다. 여기서 생성되는 템플릿은 피처 이름, 타입, 출처, 추출 계획, 예상 비용 및 갱신 주기와 같은 메타 정보를 포함한다. 두 번째 컴포넌트인 Feature Extraction Agent(FExA)는 FAA가 제시한 템플릿을 실제 코드로 구현한다. 이 과정에서 Model Context Protocol(MCP)이라 명명된 도구 체인을 활용한다. MCP는 (1) 메타데이터 조회 API, (2) 로그 파서, (3) 읽기 전용 SQL 샌드박스의 세 가지 모듈로 구성되며, 각각은 정형화된 JSON 형태의 결과를 반환한다. LLM은 이러한 도구 호출 순서를 계획하고 파이썬 코드를 자동 생성한다. 생성된 코드는 두 개의 안전 게이트를 통과해야 한다. 첫 번째는 코드 완전성 검사기로, 누락된 import나 변수 정의 오류를 검출한다. 두 번째는 데이터 누수 검사기로, 예측 시점에 사용할 수 없는 사후 실행 정보를 피처에 포함했는지 확인한다. 이 검증을 통과한 피처만이 학습 데이터 매트릭스로 변환된다. 세 번째 단계에서는 베이스라인 모델과 후보 모델을 학습한다. 저자는 XGBoost, LightGBM 등 부스팅 기반 회귀 모델을 주로 사용했으며, 하이퍼파라미터 탐색은 자동화된 베이지안 최적화를 적용하였다. 네 번째 컴포넌트인 Feature Evaluation Agent(FEvA)는 학습된 모델을 평가하면서 피처 수준의 다양한 지표를 산출한다. 피처 커버리지(결측률), 안정성(동일 작업에 대한 분산), 중요도(모델 기반), 상관관계(다중공선성) 등을 종합적으로 판단한다. 특히 FEvA는 피처 추출 비용 c(f,d)와 추론 시 허용되는 레이턴시 예산 B를 고려해, 정확도와 비용 사이의 트레이드오프를 최적화한다. 이는 식 (5)에서 정의된 라그랑주식 형태의 목적함수로 구현된다. 마지막으로 Model Selector는 FEvA가 제공한 평가 결과를 바탕으로 최적의 모델과 피처 서브셋을 선택하고, 버전 관리된 피처 사양과 추출 번들을 포함한 배포 패키지를 생성한다. 추론 단계에서는 새로운 작업이 들어올 때 FAA가 기존에 학습된 피처 템플릿을 재활용해 필요한 피처 집합을 빠르게 결정한다. FExA는 병렬 실행과 캐시 메커니즘을 활용해 실시간으로 피처를 추출하고, 선택된 피처 벡터를 배포된 모델에 입력한다. 모델은 예측된 실행 시간을 반환하고, 이 값은 LeJOT 오케스트레이터가 비용 최소화와 SLA 만족을 동시에 달성하도록 하는 의사결정에 활용된다. 시스템 전반에 걸쳐 지속적인 피드백 루프가 구축되어 있다. 예측 잔차, 피처 분포 변화, 추출 레이턴시 등 다양한 신호를 실시간으로 모니터링하고, 사전에 정의된 임계값을 초과하면 자동으로 재학습 파이프라인을 트리거한다. 재학습 시에는 캐시된 중간 결과를 재활용해 전체 파이프라인 실행 시간을 20~30분 수준으로 크게 단축한다. 실험에서는 엔터프라이즈 규모 Databricks 워크로드에 적용해 200개 이상의 동적 피처를 자동 생성했으며, 기존 수주에 걸리던 피처 엔지니어링·모델 검증 과정을 몇 분 안에 완료했다. 예측 정확도는 기존 XGBoost 기반 정적 피처 모델과 동등하거나 약간 우수했으며, 오케스트레이션 단계에서 선택된 저비용 클러스터 구성 덕분에 전체 비용을 19.01 % 절감했다. 결론적으로, LeJOT‑AutoML은 LLM 에이전트와 도구 연동을 통한 자동 피처 엔지니어링이 대규모 데이터 처리 시스템에서 실시간 비용 최적화와 모델 최신성을 동시에 달성할 수 있음을 입증한다. 안전 검증 메커니즘과 비용‑제한 최적화 프레임워크를 결합함으로써 기업 환경에서 요구되는 신뢰성·투명성을 확보했으며, 향후 클라우드‑네이티브 AutoML 연구에 중요한 방향성을 제시한다.

LLM 기반 자동 피처 엔지니어링으로 Databricks 작업 실행 시간 예측 최적화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기