동적 현장 적응을 위한 LLM 진화형 휴리스틱 포트폴리오 DSevolve

본 논문은 동적 제조 현장에서 발생하는 기계 고장, 신규 주문 등 교란에 실시간으로 대응할 수 있는 스케줄링 시스템의 필요성을 강조한다. 기존의 휴리스틱 파견 규칙(HDR)은 밀리초 수준의 응답 속도를 제공하지만, 고정된 우선순위 로직으로 인해 교란 상황에 취약하다. 진화적 방법인 유전 프로그래밍(GP)은 사전 정의된 터미널 집합에 제한돼 다차원 상태 정보를 충분히 포착하지 못하고, 진화된 규칙 역시 단일 정적 정책에 머문다. 딥 강화학습(DRL)은 상태‑행동 매핑을 학습해 적응성을 제공하지만, 특정 문제 분포에 과도하게 의존하고 전이성이 낮으며, 해석 가능성 부족으로 산업 현장 적용에 장벽이 있다. 최근 LLM 기반 자동 휴리스틱 설계(AHD) 프레임워크가 등장해 인간이 설계하기 어려운 새로운 규칙을 자동으로 생성했지만, 여전히 “단일 엘리트 규칙”에 수렴한다는 한계가 있다. 이러한 배경에서 저자들은 두 가지 핵심 문제를 제시한다. 첫째, 동적 환경에서는 최적 규칙이 시점마다 달라지므로 단일 규칙으로는 충분하지 않다. 둘째, LLM 기반 진화는 비용이 많이 드는 오프라인 프로세스이며, 온라인에 바로 적용할 메커니즘이 부재하다. 이를 해결하기 위해 제안된 DSevolve는 크게 세 단계로 구성된다. **1) 행동 특성 공간 구축 및 초기화**에서는 3차원 행동 특성(F₁: 부하 스큐, F₂: 대기 비율, F₃: 다양성)을 정의하고, MAP‑Elites 방식으로 셀을 구분한다. 초기 개체는 7개의 서로 다른 스케줄링 철학을 담은 “멀티‑페르소나 프롬프트”를 LLM에 제공해 생성한다. 이는 초기 개체가 행동 특성 공간 전역에 고르게 퍼지게 하여 다양성 확보를 보장한다. **2) 위상 인식 다양성 진화** 단계에서는 두 가지 연산자를 도입한다. 거리 최대화 교차는 현재 엘리트와 가장 먼 셀에 위치한 개체를 짝으로 잡아, LLM에게 두 규칙을 결합한 새로운 우선순위 함수를 생성하도록 요청한다. 이는 서로 보완적인 스케줄링 특성을 결합하도록 유도한다. 대비 변이는 현재 군집이 밀집된 셀을 탐지해, 그 행동 프로파일과 반대되는 특성을 갖는 변이를 강제한다. 이렇게 생성된 자식은 MAP‑Elites 아카이브에 삽입되며, 각 셀은 해당 행동 특성 내에서 가장 높은 성능을 보인 규칙만 보존한다. 결과적으로 품질과 다양성을 동시에 유지하는 포트폴리오가 형성된다. **3) 프로브 기반 실시간 스케줄링** 단계에서는 현장 교란 발생 시, 현재 작업 현황을 캡처하고 가벼운 SPT 프로브 시뮬레이션을 수행한다. 이 과정에서 부하 밀도, 평균 유연성, 부하 스큐, 메이크스팬 대비 하한, 라우팅 유연성 사용량, 대기 비율 등 6개의 지표를 추출한다. 이 6차원 지문은 사전에 구축된 케이스 라이브러리와 비교해 가장 유사한 N개의 사례를 찾는다. 각 사례에 연결된 상위 R개의 규칙을 집합화하고, 현 상황에서 짧은 look‑ahead 시뮬레이션을 통해 메이크스팬을 평가한다. 최종적으로 메이크스팬이 최소인 규칙을 선택해 교란이 해소될 때까지 적용한다. 이 전체 파이프라인은 수초 이내에 완료될 수 있도록 설계돼, 실제 공장 라인에서 요구되는 초단위 반응성을 만족한다. 실험은 실제 산업 현장에서 추출한 500개의 동적 유연 작업장(FJSP) 인스턴스를 사용했다. 데이터는 교란 빈도와 문제 복잡도에 따라 Easy(70), Medium(240), Hard(190) 세 그룹으로 나뉘었다. 오프라인 진화 단계에서는 5개의 진화용 인스턴스만 사용해 400개의 유효 HDR을 각 LLM(GPT‑4o‑mini, Qwen‑Plus, DeepSeek‑V3) 별로 생성했다. 이후 100개의 케이스를 이용해 프로브 기반 지문 데이터베이스를 구축하고, 테스트 세트에 대해 온라인 스케줄링을 수행했다. 비교 대상은 (1) 기존 AHD 프레임워크(EoH, ReEvo, HSEvo), (2) 전통 HDR(SPT, LPT, SRM, SSO, LSO), (3) GP와 DRL이다. 결과는 DSevolve가 평균 메이크스팬에서 모든 시나리오에서 기존 AHD보다 4~7% 개선했으며, 전통 HDR와 GP/DRL 대비 10% 이상 향상됨을 보여준다. 특히 Hard 시나리오에서도 평균 3139.4( DSevolve) vs 3192.2(HSEvo) 등 의미 있는 차이를 기록했다. 또한 온라인 선택 과정은 5개의 가장 유사한 사례와 20개의 후보 규칙을 시뮬레이션하는 데 1~3초 정도 소요돼 실시간 적용이 가능함을 입증했다. 논문의 주요 기여는 다음과 같다. (1) **멀티‑페르소나 시딩**을 통한 초기 다양성 확보, (2) **위상 인식 연산자**(거리 최대화 교차·대비 변이)로 품질·다양성 균형을 유지하는 MAP‑Elites 기반 포트폴리오 진화, (3) **프로브 기반 지문화**와 케이스 기반 빠른 검색·시뮬레이션으로 초실시간 규칙 선택, (4) 실제 산업 데이터에 기반한 대규모 실험을 통한 실용성 검증. 한계점으로는 행동 특성 차원이 3에 제한돼 복잡한 스케줄링 특성을 완전히 포착하지 못할 수 있고, 프로브가 SPT에 의존해 특정 라우팅 제약을 반영하지 못한다는 점, 그리고 LLM 호출 비용이 여전히 높다는 점을 들 수 있다. 향후 연구에서는 행동 특성 차원 확대, 메타‑학습 기반 프로브 모델 도입, 비용 효율적인 LLM 파인튜닝 및 온프레미스 배포 전략을 탐색할 예정이다. 전반적으로 DSevolve는 LLM‑진화, MAP‑Elites, 실시간 프로브라는 세 축을 결합해 동적 제조 현장의 적응형 스케줄링 문제에 실용적이고 성능적인 해결책을 제시한다.

동적 현장 적응을 위한 LLM 진화형 휴리스틱 포트폴리오 DSevolve

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기