한 번에 모든 채널 믹서를 압축하는 HYPER TINY PW
마이크로컨트롤러에 적합하도록 1×1 포인트와이즈(PW) 가중치를 저장하지 않고, 공유 마이크로‑MLP와 작은 레이어 코드로 한 번만 합성해 캐시하는 HYPER TINY PW를 제안한다. 부팅 시 혹은 최초 사용 시 합성된 INT8 PW 가중치는 기존 CMSIS‑NN/TFLM 정수 연산과 그대로 호환되며, 플래시 사용량을 84 % 이상 절감하면서 95 % 이상의 macro‑F1 성능을 유지한다.
저자: Yassien Shaalan
본 논문은 마이크로컨트롤러(MCU) 기반 TinyML 시스템에서 가장 큰 메모리 부담을 일으키는 1×1 포인트와이즈(PW) 채널 믹서를 저장‑대‑생성(compression‑as‑generation) 방식으로 대체하는 새로운 프레임워크 HYPER TINY PW를 제안한다. 기존 separable 1D CNN 구조는 Depthwise( DW) 연산이 연산량을 차지하고, PW 레이어가 파라미터와 플래시 사용량을 주도한다. INT8 양자화 후에도 다수의 PW 레이어가 수십 킬로바이트를 차지해 MCU 배포가 어려워진다.
HYPER TINY PW는 “공유 마이크로‑MLP” g_ϕ와 “극소 레이어 코드” zₗ을 도입한다. 각 레이어 l에 대해 코드 zₗ∈ℝ^{d_z}를 저장하고, g_ϕ가 이를 고차원 임베딩 hₗ∈ℝ^{d_h}로 변환한다. 이후 레이어‑전용 헤드 Hₗ(또는 경량 어댑터 Aₗ와 공유 매트릭스 B)로 hₗ를 완전한 PW 커널 Wₗ∈ℝ^{C_out×C_in}으로 투사한다. 이 과정은 부팅 시 혹은 레이어 최초 사용 시 한 번만 수행되며, 합성된 가중치는 INT8 양자화 후 기존 CMSIS‑NN/TFLM 정수 연산 경로에 그대로 매핑된다. 첫 번째 PW1은 초기 형태학적 혼합을 안정화하기 위해 그대로 INT8 저장한다.
저장 용량 평가는 “packed‑byte accounting”을 통해 정확히 측정한다. 각 텐서 τ의 요소 수 N_τ와 양자화 비트 b_τ를 곱해 바이트 수를 산출하고, 생성기 파라미터, 헤드(또는 Aₗ·B), 레이어 코드, 유지된 PW1, 그리고 백본(Stem, DW, Classifier)까지 모두 포함한다. 양자화 비트는 4/6/8비트를 혼합 사용해 플래시 절감을 극대화한다.
학습 손실은 다중 목표를 포함한다. 기본 교차 엔트로피(CE) 손실에 불균형을 보정하는 focal loss, 대형 교사 모델로부터의 지식 증류(KL), 특징 매칭, 직접 macro‑F1을 최적화하는 soft‑F1, 그리고 파라미터 L1 정규화가 결합된다. 이 손실 설계는 코드와 헤드가 과도하게 커지는 것을 억제하고, 희귀 이벤트(예: 부정맥) 검출 성능을 유지하도록 돕는다.
배포 옵션은 두 가지다. 1) 부팅 시 전체 PW2…L을 합성하는 “boot synthesis”는 부팅 시간이 길어지지만 추론 시 지연이 없으며, 2) 최초 사용 시 레이어별로 지연 합성하는 “lazy synthesis”는 부팅이 빠르지만 첫 사용 시 일시적인 스톨이 발생한다. 어느 경우든 합성 비용은 일회성이며, 이후 추론은 순수 INT8 연산만 수행한다. SRAM 피크는 가장 큰 PW와 활성화 텐서 크기로 제한되며, 필요 시 플래시 스트리밍도 가능하다.
실험은 세 가지 ECG 데이터셋(Apnea‑ECG, PTB‑XL, MIT‑BIH)과 Speech Commands 오디오 데이터셋에서 수행되었다. 플래시 225 kB 수준에서 기존 1.4 MB separable CNN 대비 6.31배(84.15 % 감소) 작은 모델이 macro‑F1 95 % 이상을 유지했으며, 32–64 kB 초저용량에서도 균형 잡힌 검출 성능을 보였다. 4‑bit 양자화에서도 정확도 손실이 6 % 이하에 그쳤다. 비교 대상으로는 저차원 PW, 구조적 변환( circulant, Toeplitz, Kronecker 등), 동적 하이퍼네트워크 등이 있었으며, 플래시‑성능 Pareto에서 HYPER TINY PW가 전반적으로 우수했다.
한계점으로는 생성기 초기 부팅 비용, 코드·헤드 설계가 데이터셋에 민감하게 튜닝될 수 있다는 점, 현재는 1D 시계열과 1D 오디오에 초점을 맞추었으며 2D 비전 모델에 적용하려면 추가 최적화가 필요하다는 점을 들 수 있다. 그럼에도 불구하고, 크로스‑레이어 공유 잠재공간을 활용한 가중치 합성은 TinyML에서 메모리와 연산 효율을 동시에 개선하는 새로운 설계 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기