두 수요계층 재고 배분 대기열의 최적 동적 배분 정책에 대한 완전 대수 해법

본 논문은 두 수요계층을 가진 재고‑배분 대기열을 민감도 기반 최적화 기법으로 분석하고, 최적 동적 배분 정책이 변환형 임계값 형태임을 증명한다. 성능 차이 방정식을 이용해 장기 평균 이익의 단조성 및 최적성을 규명하고, 패널티 비용을 세 구간으로 나누어 각각에 대한 충분조건을 제시한다. 이를 통해 완전한 대수적 해법과 구조적 특성을 도출하고, 수치 실험으로 이론을 검증한다.

저자: Quan-Lin Li, Yi-Meng Li, Jing-Yu Ma

두 수요계층 재고 배분 대기열의 최적 동적 배분 정책에 대한 완전 대수 해법
1. 연구 배경 및 목적 COVID‑19 팬데믹으로 대도시의 대형 물류창고가 일상적인 생활 필수품 공급에 핵심적인 역할을 수행하면서, 재고‑배분(Stock‑Rationing) 시스템에 대한 효율적인 관리가 절실히 요구된다. 특히 두 종류의 소매업체(대형 슈퍼마켓과 일반 소매점)와 같이 서로 다른 우선순위를 가진 수요계층이 존재할 때, 재고가 부족할 경우 어떤 수요를 차단하거나 보류할지 결정하는 ‘임계 배분 수준(critical rationing level)’이 핵심 정책 변수가 된다. 기존 연구는 이러한 임계 수준의 존재와 단조성을 증명했지만, 다수 수요계층을 가진 시스템에서 최적 정책을 완전하게 도출하거나, 비용 구조에 따라 정책 형태를 구분짓는 데 한계가 있었다. 2. 모델 설정 - 시스템은 단일 제품을 보유한 창고이며, 두 수요계층(고우선순위와 저우선순위)으로부터 포아송 도착을 가정한다. - 서비스(출고) 과정은 지수분포를 따르는 ‘birth‑death’ 프로세스로 모델링한다. - 정책 d는 재고 수준에 따라 저우선순위 수요를 허용하거나 차단하는 규칙이며, 이를 ‘동적 배분 정책(dynamic rationing policy)’이라고 부른다. - 비용 구조는 재고 유지비, 부족 비용, 그리고 저우선순위 수요 차단에 대한 패널티 비용 P를 포함한다. 3. 민감도 기반 최적화 프레임워크 연구는 세 단계로 구성된다. ① 정책 기반 마코프 과정 설정 → 상태 전이율 행렬을 명시하고, 정책에 따라 전이율이 달라지는 점을 강조한다. ② 정책 기반 포아송 방정식 도출 → 장기 평균 이익 η(d)와 상태별 가치 함수 g(i,d)를 연결하는 방정식 G(d)(i)+b=0 형태를 얻는다. 여기서 G(d)(i)는 ‘perturbation realization factor’이며, b는 자유 상수이다. ③ 성능 차이 방정식 활용 → 두 정책 d와 d′ 사이의 이익 차이 Δη = η(d′)−η(d)를 G(d)(i)와 g(i,d)로 표현함으로써, 정책 개선 방향을 정량화한다. 4. 대수적 해법 및 임계값 정책 증명 포아송 방정식의 일반해는 두 자유 상수(잠재적 대체 비용 상수와 또 다른 해 자유 상수)를 포함한다. 이를 이용해 G(d)(i)+b=0을 풀면, 각 재고 수준 i에 대한 해 P(d)ᵢ를 얻는다. P(d)ᵢ를 이용해 두 임계값을 정의한다. - P_H(d) = max_i P(d)ᵢ : 고비용 구간 상한 - P_L(d) = min_i P(d)ᵢ : 저비용 구간 하한 패널티 비용 P가 세 구간으로 나뉜다. ① P ≥ P_H(d) : 고비용 구간에서는 저우선순위 수요를 차단하는 것이 최적이며, 최적 정책은 재고가 일정 수준 이하일 때만 저우선순위 수요를 허용하는 ‘임계값 정책(threshold policy)’이다. ② 0 < P ≤ P_L(d) : 저비용 구간에서도 동일하게 임계값 정책이 최적이며, 차단 비용이 작아도 재고가 충분히 있을 때만 저우선순위 수요를 받아들인다. ③ P_L(d) < P < P_H(d) : 중간 구간에서는 기존 연구가 ‘bang‑bang’ 제어(즉시 차단/허용)만을 제시했지만, 본 논문은 성능 차이 방정식을 통해 정책이 변환형 임계값 형태임을 증명하고, 세 가지 충분조건을 제시한다. 5. 충분조건(Three Sufficient Conditions) - 조건 1: 고우선순위 도착률 λ₁과 저우선순위 도착률 λ₂의 비율이 일정 임계값 이하일 때, 임계값 정책이 최적. - 조건 2: 서비스율 μ와 재고 보유 비용 cₛ의 관계가 특정 범위에 있을 때, 임계값 정책이 유지. - 조건 3: 패널티 비용 P와 재고 부족 비용 cₚ의 비율이 P_L(d)와 P_H(d) 사이에 위치할 때, 변환형 임계값 정책이 최적. 각 조건은 시스템 파라미터에 따라 쉽게 검증 가능하도록 수식 형태로 제시된다. 6. 수치 실험 다양한 파라미터 설정(λ₁, λ₂, μ, cₛ, cₚ, P)을 통해 최적 정책을 계산하고, 이익 곡선과 재고 수준 분포를 시각화했다. 실험 결과는: (1) 제시된 충분조건을 만족하면 정책이 명확히 임계값 형태를 띤다. (2) 중간 구간에서도 변환형 임계값 정책이 ‘bang‑bang’보다 높은 평균 이익을 제공한다. (3) 알고리즘의 계산 복잡도는 기존 서브모듈러 MDP 방법에 비해 현저히 낮으며, 대규모 시스템에도 적용 가능함을 확인했다. 7. 결론 및 향후 연구 본 논문은 민감도 기반 최적화와 포아송 방정식의 결합을 통해 두 수요계층 재고‑배분 대기열의 최적 동적 배분 정책을 완전 대수적으로 해결하였다. 변환형 임계값 정책의 최적성을 증명하고, 비용 구간별 충분조건을 제공함으로써 실무자들이 정책 설계 시 명확한 가이드라인을 얻을 수 있다. 향후 연구는 (i) 다수(>2) 수요계층 확장, (ii) 비포아송 도착·서비스 모델, (iii) 실시간 학습 기반 정책 적용 등을 탐색할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기