대용량 데이터 전송을 1 MB 이하로 압축하는 새로운 라벨 전송 방식

본 논문은 대규모 데이터셋을 다수의 클라이언트에게 전송해야 하는 상황에서 발생하는 막대한 통신 비용을 근본적으로 감소시키는 새로운 프레임워크인 PLADA(Pseudo‑Labels as Data)를 제안한다. 기존 접근법은 데이터 자체를 압축하거나 합성 이미지(데이터 증류)를 생성해 전송량을 줄이려 했지만, 고해상도 이미지에서는 메모리·연산 부담이 크고, 합성 이미지가 여전히 수 MB 수준의 파일 크기를 차지한다. PLADA는 이러한 한계를 피하기 위해 ‘이미지는 전송하지 않는다’는 원칙을 채택한다. 모든 원격 에이전트는 사전에 ImageNet‑1K 혹은 ImageNet‑21K와 같은 방대한 무라벨 레퍼런스 이미지 풀을 로컬에 저장한다. 서버는 목표 태스크(예: 특정 분류 문제)에 대해 교사 모델을 학습한 뒤, 레퍼런스 이미지 각각에 대해 가장 높은 로짓을 가진 클래스를 하드 라벨로 지정한다. 라벨은 정수 하나이므로 전송 비용이 극히 낮다. 그러나 레퍼런스 풀에는 목표 도메인과 무관한 이미지가 다수 포함될 수 있어, 무작위 라벨 전송은 학습 효율을 저해한다. 이를 해결하기 위해 두 단계 프루닝을 도입한다. 첫 번째 단계는 에너지 기반 OOD 점수를 이용해 레퍼런스 이미지의 확신도를 측정하고, 낮은 에너지(높은 확신)를 보이는 상위 p % 이미지만을 선택한다. 이 과정은 전송 라벨 수를 크게 감소시켜 페이로드를 최소화하고, 의미론적으로 관련된 샘플만을 남겨 학습 정확도를 유지한다. 두 번째 단계는 ‘Safety‑Net’ 메커니즘으로, 전역 에너지 임계값만 적용하면 소수 클래스가 거의 사라지는 클래스 붕괴 현상이 발생한다는 점을 보완한다. 각 클래스별 보존 비율 K_c를 파워‑법칙(α 파라미터)으로 정의하고, 우선순위가 높은(에너지 낮은) 샘플을 클래스별 할당량에 맞게 채운 뒤 남은 예산을 전역 에너지 기준으로 채워 클래스 균형을 확보한다. 전송 효율을 더욱 높이기 위해 라벨 마스크와 라벨 자체를 가변 길이 코딩(Zstd 등)으로 압축한다. 특히 마스크는 연속된 0·1 구간을 런‑길이 인코딩(RLE)으로 변환해 1 bit/이미지 수준의 오버헤드를 크게 감소시킨다. 실험에서는 10개의 자연 이미지 데이터셋(CIFAR‑100, STL‑10 등)과 4개의 의료 이미지 데이터셋을 대상으로, ImageNet‑21K를 레퍼런스로 사용해 1 %~10 % 프루닝 비율에서 85 KB~206 KB(압축 후) 정도의 페이로드만 전송해도 원본 데이터 학습에 근접한 정확도를 달성했다. 특히 의료 도메인처럼 레퍼런스와 분포 차이가 큰 경우에도 에너지 기반 프루닝과 Safety‑Net이 효과적으로 작동해 성능 저하를 방지한다. 논문은 또한 다양한 코딩 스킴, 프루닝 비율, α 파라미터에 대한 상세한 Ablation 연구를 제공해 각 요소가 전송 비용과 정확도에 미치는 영향을 정량화한다. 최종적으로 PLADA는 (1) 라벨만 전송함으로써 픽셀 전송 비용을 완전히 제거, (2) 에너지 기반 OOD 프루닝으로 의미론적 관련성을 확보, (3) 클래스 균형을 위한 안전망 메커니즘, (4) 효율적인 가변 길이 코딩을 결합해 1 MB 이하의 초소형 페이로드로 고성능 모델 전이를 가능하게 한다는 점에서, 제한된 대역폭 환경(수십 kbps 이하)에서도 대규모 학습 데이터를 효과적으로 제공할 수 있는 실용적인 솔루션을 제시한다.

대용량 데이터 전송을 1 MB 이하로 압축하는 새로운 라벨 전송 방식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기