우행OS 클라우드 네이티브 우주 클러스터 운영체제
우행OS는 파편화·이질적인 위성 자원을 통합적으로 추상화·인식·오케스트레이션하는 네 가지 계층 구조와 세 가지 핵심 기술을 제시한다. 이를 통해 위성 이동성·제한된 통신 윈도우 등 우주 환경 특성을 반영한 작업 스케줄링이 가능해지며, 기존 쿠버네티스 기반 시스템 대비 작업 완료 비율을 최대 98%까지 향상시키고 자원 인식 지연을 71% 감소시킨다.
저자: Jin Zhang, Jiachen Sun, Kai Liu
본 논문은 최근 급격히 성장하고 있는 클라우드‑네이티브 우주 클러스터(CNSC) 환경에서, 지상 데이터센터용으로 설계된 기존 클러스터 운영체제(예: 쿠버네티스)를 그대로 적용했을 때 발생하는 근본적인 한계를 지적한다. 주요 문제는 (1) **자원 파편화**—수천 대의 위성이 서로 다른 궤도와 하드웨어 사양을 가지고 분산되어 있어, 중앙집중식 자원 풀을 구성하기 어렵다. (2) **위성 이동성 및 제한된 통신 윈도우**—LEO 위성은 지상국과 몇 분에서 수십 분 정도만 통신이 가능하고, 위성‑위성 간 링크도 가시성에 따라 급격히 변한다. 이러한 특성은 전통적인 고주파 하트비트 기반 상태 동기화와 고대역폭 데이터 전송을 전제로 하는 쿠버네티스와는 근본적으로 맞지 않는다.
이를 해결하기 위해 저자들은 **우행OS**라는 새로운 클라우드‑네이티브 우주 클러스터 운영체제를 제안한다. 우행OS는 **4‑Layer 구조(L0‑L5)**와 **핵심 기술 3가지**로 구성된다.
- **L0 (인프라 레이어)**: 위성 내부의 CPU, GPU, AI 가속기, 저장소, 레이저·마이크로파 통신 링크, 그리고 임무‑특화 센서를 포함한 이질적인 물리 자원을 정의한다. 위성 OS와 컨테이너 런타임이 이 레이어와 직접 상호작용한다.
- **L1 (CNSC 확장 관리)**: 위성의 **가입·탈퇴**와 **능력 등록**을 담당한다. 위성 능력 레지스트리는 정적 용량 한계를 기록해, 이후 스케줄링 단계에서 실시간 가용량이 아닌 **가능 용량**을 기준으로 작업 매칭을 수행한다. 이는 간헐적인 연결 상황에서도 클러스터 멤버십 일관성을 유지한다.
- **L2 (자원 뷰 구축)**: 각 위성은 로컬에서 이질적인 자원을 **통합 프로파일**로 추상화하고, 가시성 윈도우에 맞춰 최적의 전송 채널을 선택한다. 지상 NOCC는 다수의 위성으로부터 전송된 프로파일을 **시공간 자원 뷰**로 집계한다. 이 과정에서 **Awareness‑Oriented Transmission Resource Allocation**이 핵심 역할을 하며, 기존 시스템 대비 인식 지연을 71% 감소시킨다.
- **L3 (자원 오케스트레이션)**: 작업의 **시간 의존성**과 **네트워크 제약**을 동시에 고려한다. 작업을 여러 단계로 분해하고, 각 단계별 요구 자원을 분석한다. 정기 스케줄러는 주기적인 작업을, 비상 비동기 스케줄러는 급박한 이벤트를 처리한다. 충돌 해결기와 재스케줄러는 자원 충돌·작업 중단 상황에서도 연속성을 보장한다.
- **L4 (작업 분석·모델링)**: 위성 환경에서는 과다 할당이 불가능하므로, 작업이 요구하는 **자원‑품질 관계**(예: GPU 할당량이 모델 정확도에 미치는 영향)를 사전에 모델링한다. 이를 통해 최소 자원으로 목표 성능을 달성하도록 요구량을 예측한다.
핵심 기술은 다음과 같다.
1. **이질 자원 요구 모델링**: 작업을 CPU, GPU, 스토리지, 통신, 센서 등 다차원 자원 벡터로 표현하고, 각 벡터에 대한 품질 함수(예: 지연, 정확도)를 정의한다.
2. **네트워크 제약 하의 파편화 자원 인식**: 위성‑지상·위성‑위성 링크의 가시성·대역폭을 실시간으로 측정하고, 전송 채널을 동적으로 재배치해 인식 지연을 최소화한다.
3. **시간 의존성을 포함한 다차원 매칭**: 작업 단계 간 선후 관계를 그래프 형태로 모델링하고, 각 단계별 최적 매칭을 풀어내어 전체 작업 흐름을 최적화한다.
평가에서는 시뮬레이션 기반 워크로드(다양한 컴퓨팅·통신 요구와 시간 의존성을 포함)와 실제 위성 궤도·링크 모델을 사용해 쿠버네티스와 비교하였다. 결과는 다음과 같다.
- **작업 완료 비율**: 우행OS는 최대 98% 향상을 보였으며, 특히 통신 제한이 심한 상황에서 큰 차이를 나타냈다.
- **자원 인식 지연**: 평균 71% 감소, 이는 L2‑Awareness‑Oriented Transmission Allocation 덕분이다.
- **스케줄링 성공률**: 비상 작업에 대한 비동기 스케줄러가 급변 상황에서도 높은 성공률을 유지했다.
논문은 또한 한계점으로 시뮬레이션 환경의 제한성(실제 전자기 간섭·보안 위협 미반영)과 보안·신뢰성 메커니즘 부재를 언급한다. 향후 연구에서는 실제 위성 시험을 통한 검증, 보안 강화, 그리고 AI 기반 예측 스케줄링을 추가할 계획이다.
결론적으로, 우행OS는 **우주 특화형 자원 추상화·인식·오케스트레이션 프레임워크**를 제공함으로써, 기존 지상 클라우드 운영체제의 한계를 극복하고, 대규모 위성 군집에서 컨테이너 기반 작업을 효율적으로 배포·관리할 수 있는 기반을 마련한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기