프로그래밍 기반 지식 주입 팩터 엔진으로 알파 팩터 자동 발굴

본 논문은 양적 투자에서 핵심적인 알파 팩터를 자동으로 발굴하고, 그 결과물을 바로 실행·감사 가능한 형태로 제공하는 “FactorEngine(FE)”이라는 프레임워크를 제안한다. 기존 연구는 크게 심볼릭 표현 기반과 신경망 기반 두 갈래로 나뉘는데, 전자는 연산자 집합에 제한을 받아 탐색 공간이 제한적이며, 후자는 해석성이 떨어지고 시장 변동에 취약한 과적합 문제가 있다. 이러한 한계를 극복하기 위해 FE는 팩터를 “Turing‑complete 파이썬 코드”로 정의하고, 논리 진화와 파라미터 최적화를 명확히 분리한다. FE의 구조는 크게 세 모듈로 구성된다. 첫 번째인 부트스트래핑 모듈은 재무 보고서와 전문가 팩터를 자동으로 처리한다. PDF 전처리 단계에서 LLM을 이용해 보고서의 유효성을 검증하고, 핵심 아이디어를 추출한다. 추출된 아이디어는 JSON 형태와 LaTeX 의사코드로 정리된 뒤, 또 다른 LLM 에이전트가 이를 실행 가능한 파이썬 코드로 변환한다. 이 과정에서 논리적 오류나 누락된 변수 등을 자동으로 교정하며, 최종적으로 검증된 코드와 경제적 근거를 초기 팩터 풀에 저장한다. 두 번째인 진화 모듈은 매크로‑마이크로 공동 진화를 수행한다. 매크로 레벨에서는 LLM 기반 에이전트가 현재 팩터 풀의 트리 구조에서 가장 유망한 노드를 선택하고, 새로운 논리 변이를 제안한다. 변이 종류는 조건문 추가, 루프 구조 삽입, 함수 재구성 등 다양하며, 경험 지식 베이스에 저장된 성공·실패 사례를 활용해 탐색 방향을 조정한다. 마이크로 레벨에서는 베이지안 최적화가 각 변이된 팩터의 하이퍼파라미터(예: 이동 평균 기간, 가중치 등)를 효율적으로 탐색한다. 베이지안 모델은 이전 실험 결과를 사전분포로 활용해 샘플링 효율을 높이며, 동시에 연산 비용을 최소화한다. 각 진화 사이클은 네 단계(프로그램 선택 → 아이디어 생성 → 구현 → 분석)로 진행되며, 구현 단계에서 백테스트를 수행해 IC, ICIR, Rank‑IC 등 성능 지표와 연산 시간을 동시에 측정한다. 분석 단계에서는 이러한 지표를 보상 신호로 변환해 다음 사이클의 탐색 정책을 업데이트한다. 이 과정은 강화학습의 정책‑가치 업데이트와 유사하게 동작한다. 세 번째인 통합 모듈은 진화된 팩터들을 다중 팩터 모델에 통합하고, 포트폴리오 레벨 백테스트를 수행한다. 여기서는 선형 회귀, Lasso, 혹은 Gradient Boosting 등 다양한 모델을 적용해 팩터들의 시그널을 결합하고, 실제 거래 전략(예: 장중 매수·매도, 포지션 사이징)으로 변환한다. 최종 성과는 연간 초과수익률, 샤프비율, 최대 손실률 등으로 평가된다. 실험 결과는 크게 두 가지 측면에서 기존 방법을 능가한다. 첫째, 정보계수(IC)와 그 변동성(ICIR)에서 평균 58 % 상승을 기록했으며, Rank‑IC에서도 유사한 개선을 보였다. 둘째, 포트폴리오 수준에서는 연간 초과수익률이 126 % 증가하고, 샤프비율이 0.3 이상 상승했다. 특히, FE가 생성한 팩터는 복잡한 조건 로직과 반복 구조를 포함함에도 불구하고, 백테스트 시 안정적인 성능을 유지했으며, 이는 기존 심볼릭 팩터가 갖는 표현력 한계를 넘어섰음을 의미한다. 또한, 부트스트래핑 단계에서 자동으로 추출된 재무 보고서 기반 팩터는 기존 전문가 설계 팩터와 비교해 다양성 지표가 30 % 이상 높았다. 이는 다양한 산업·시점의 재무 텍스트를 코드화함으로써 팩터 풀의 폭넓은 탐색이 가능해졌기 때문이다. 결론적으로, FactorEngine은 (1) 프로그램 수준의 무제한 표현력, (2) LLM‑주도 매크로 탐색과 베이지안 마이크로 최적화의 효율적 결합, (3) 재무 텍스트를 직접 코드화하는 지식 주입 파이프라인이라는 세 축을 통해 알파 팩터 자동화에 새로운 패러다임을 제시한다. 향후 연구에서는 멀티에이전트 협업 전략 강화, 실시간 데이터 스트리밍 적용, 그리고 규제·컴플라이언스 자동 검증 모듈을 추가해 실제 운용 환경에의 적용성을 더욱 확대할 계획이다.

프로그래밍 기반 지식 주입 팩터 엔진으로 알파 팩터 자동 발굴

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기