8년 연속 전천구름 데이터셋, 별 인식 마스크와 고도‑방위 보정 제공
LenghuSky‑8은 중국 량후 천문 관측소에서 2018‑2025년까지 수집한 429 620장의 512×512 전천 이미지와 81.2%의 야간 커버리지를 포함한다. 별을 이용한 천문학적 보정으로 각 픽셀에 고도‑방위 좌표를 할당하고, 1 111장의 수동 라벨을 통해 DINOv3 기반 선형 프로브로 93.3% 정확도의 구름‑하늘‑오염 3‑클래스 분할 모델을 구축하였다. 또한 5‑15분 단기 예보를 위한 nowcasting 벤치마크와 네 가지 베…
저자: Yicheng Rui, Xiao-Wei Duan, Licai Deng
본 논문은 지상 기반 시계열 천문 관측소가 실시간으로 구름 상황을 파악하기 위해 필요한 장기·고해상도 전천 이미지 데이터셋을 제시한다. 데이터는 중국 청해성 량후에 위치한 고도 4 200‑4 500 m의 관측소에서 2018년부터 2025년까지 8년간 수집되었으며, 총 429 620장의 512×512 픽셀 이미지와 81.2%의 야간 커버리지를 포함한다. 촬영 간격은 야간에 5분, 주간에 20분으로 설정돼 계절·시간·달 위상에 따른 구름 변화를 충분히 포착한다.
데이터는 두 시기로 구분된다. Part I(2023‑09‑27 이전)에서는 렌즈 오염·이물질이 많아 이미지 품질이 낮았으며, Part II에서는 정기적인 청소와 주변 건물의 움직임으로 배경이 변하는 특징을 가진다. 각 시기별 배경 변화를 수동으로 라벨링하고, DINOv3 CLS 토큰 기반 선형 분류기로 자동 라벨링 정확도를 100% 달성했다.
라벨링은 1 111장의 이미지에 대해 “구름”, “하늘”, “오염” 세 클래스로 수행했으며, 달 위상·시간·계절·구름 상태를 균등하게 샘플링했다. 라벨링 정책은 불확실 영역을 오염 클래스로 지정해 인간 주관을 최소화했다.
분할 모델은 DINOv3(ViT‑L/16)에서 추출한 64×64 로컬 피처와 CLS 토큰을 이용한 선형 프로브 방식을 채택했다. 전체 이미지에 대해 1024×1024로 리사이즈 후 64×64 패치 단위 피처를 얻고, 라벨이 있는 1 111장의 데이터로 단일 레이어 선형 분류기를 학습한다. 이 방법은 대규모 사전학습 모델의 풍부한 표현력을 그대로 활용하면서 라벨 비용을 크게 절감한다. 실험 결과, 전체 정확도 93.3% ± 1.1%를 달성했으며, 특히 야간·달빛 조건에서도 높은 정밀도를 유지한다. 전역 피처만을 사용했을 때보다 로컬 피처를 활용했을 때 성능이 유의미하게 향상되었다.
천문학적 보정은 ASTROMETRY.NET을 기반으로 별자리 매칭을 수행하되, 전천 어안 렌즈의 강한 왜곡을 보정하기 위해 Jia et al.의 방법을 변형하였다. 보정 결과, 천정에서는 평균 0.37° 오차, 30° 고도에서는 평균 1.34° 오차를 보였으며, 이는 대부분의 광학 망원경 스케줄러가 요구하는 정밀도 수준이다.
Nowcasting 벤치마크는 5‑15분 단기 예보를 목표로 하며, 입력 시퀀스는 3‑클래스 로짓(구름/하늘/오염) 형태로 제공된다. 네 가지 베이스라인(지속, 광류, ConvLSTM, VideoGPT)을 구현했으며, ConvLSTM이 가장 높은 성능을 보였지만 지속 모델과의 차이가 크지 않아 구름의 급격한 변화를 예측하는 것이 여전히 어려운 과제로 남는다. 이는 구름 동역학의 복잡성(예: 급격한 상승·하강, 국소적인 흐름) 때문에 모델링 한계가 존재함을 시사한다.
본 연구는 다음과 같은 주요 기여를 한다. (1) 8년간 429 620장의 전천 이미지와 별 인식 마스크, 배경 마스크, 고도‑방위 보정 정보를 포함한 대규모 데이터셋 제공. (2) 1 111장의 균형 잡힌 라벨 데이터와 DINOv3 기반 선형 프로브 분할 모델 공개. (3) 단기 구름 nowcasting을 위한 벤치마크와 네 가지 베이스라인 구현. (4) 데이터 로더, 보정 맵, 평가 스크립트, 그리고 분할·예보 모델 구현을 포함한 오픈소스 툴킷 제공. 데이터와 코드는 GitHub(https://github.com/ruiyicheng/LenghuSky-8)에서 자유롭게 다운로드 가능하며, 관측 스케줄러와 자동화 시스템에 바로 통합할 수 있다.
이 데이터셋은 장기·계절·시간·달 위상에 따른 구름 변동을 포괄적으로 포함하고 있어, 기존의 짧은 기간·주간 편중·천문학적 좌표 부재 데이터셋을 대체할 수 있다. 또한 별 기반 고도‑방위 보정은 관측소가 실시간으로 구름 정보를 좌표계에 매핑해 최적의 관측 계획을 수립하도록 지원한다. 향후 연구에서는 더 정교한 시공간 모델(예: 물리 기반 흐름 모델, Transformer 기반 비디오 예측)과 멀티모달 센서(예: 라이다, 기상 레이더) 결합을 통해 nowcasting 성능을 향상시킬 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기