코드릭 기반 저전력 혼합 정밀도 벡터 엔진
본 논문은 CORDIC 기반 반복형 MAC 유닛을 활용한 런타임 적응형 벡터 엔진을 제안한다. 4·8·16‑비트 가변 정밀도와 근사·정확 모드를 동적으로 전환함으로써 연산 지연과 정확도 사이의 트레이드오프를 최적화하고, 다중 NAF 블록을 시간‑다중화하여 활성화 함수 유닛의 유휴 시간을 크게 감소시킨다. 256‑PE 구성의 ASIC 구현 결과, 4.83 TOPS/mm²의 연산 밀도와 11.67 TOPS/W의 에너지 효율을 달성하였다.
저자: Sonu Kumar, Mohd Faisal Khan, Mukul Lokh
본 논문은 엣지 AI 가속기를 위한 새로운 벡터 처리 엔진인 CORVET을 제안한다. CORVET은 CORDIC 기반의 반복형 MAC 유닛을 핵심으로 하며, 이 유닛은 실행 시점에 근사 반복 횟수를 레이어 별로 조절할 수 있는 런타임 적응 메커니즘을 제공한다. 이를 통해 연산 지연과 전력 소비를 최소화하면서도 필요한 경우 높은 정확도를 유지할 수 있다.
아키텍처는 N개의 동등한 프로세싱 엘리먼트(PE)로 구성되며, N은 64에서 256까지 확장 가능하다. 각 PE는 가변 정밀도(4, 8, 16 비트)를 지원하는 CORDIC MAC, 로컬 레지스터, 데이터·제어 인터페이스를 포함한다. 두 개의 커널 메모리 뱅크는 입력 피처맵과 가중치를 각각 저장하고, 교차 접근을 통해 데이터 공급을 지속적으로 유지한다. 메모리 주소 체계는 레이어 인덱스, 파라미터 종류(가중치/바이어스), 뉴런·입력 인덱스를 포함한 가변 길이 필드로 설계돼, 다양한 네트워크 토폴로지를 효율적으로 매핑한다.
제어 엔진은 정밀도·반복 횟수 설정 레지스터, 파이프라인 상태 레지스터, 그리고 레이어 흐름을 관리하는 유한 상태 머신(FSMD)으로 구성된다. 레이어가 완료되면 LayerDone 신호가 발생하고, 현재 레이어 인덱스와 연산 진행 상황을 기반으로 다음 레이어의 파라미터와 입력을 동적으로 로드한다. 이 과정에서 사용되지 않는 PE는 전력 차단이 가능해 동적 전력 절감 효과를 얻는다.
활성화 함수 처리 부문에서는 다중 NAF 블록을 시간‑다중화하여 ReLU, Sigmoid, Tanh, GELU, Swish, Softmax 등 다양한 비선형 함수를 하나의 하드웨어에 통합한다. 기존 설계가 전용 NAF 전용 하드웨어를 별도로 배치해 다크 실리콘 비율이 높았던 점을 개선하고, NAF 유닛이 전체 연산 시간의 2~5 %만 차지하도록 설계하였다.
하드웨어 구현 결과는 두 단계로 제시된다. 첫 번째는 Xilinx Pynq‑Z2 보드 상의 FPGA 프로토타입이며, 여기서는 256‑PE 구성을 200 MHz 클럭으로 동작시켜 CIFAR‑10 이미지 분류와 COCO 객체 검출 워크로드에서 평균 1.6×~1.8×의 처리량 향상과 15 %~20 %의 전력 절감을 달성했다. 두 번째는 28 nm CMOS 공정으로 ASIC 합성한 결과이며, 각 MAC 단계는 33 %의 지연 감소와 21 %의 전력 절감을 보였다. 전체 엔진은 4.83 TOPS/mm²의 연산 밀도와 11.67 TOPS/W의 에너지 효율을 기록했으며, 이는 최신 AI 가속기(예: TPUv4, Edge TPU) 대비 10 %~15 % 높은 수치이다.
성능 평가에서는 다양한 정밀도와 근사 깊이 조합을 실험하였다. 4‑비트 근사 모드에서는 연산량이 크게 감소해 전력 소모가 최소화되었으며, 정확도가 약 1 % 이하 감소했다. 16‑비트 정확 모드에서는 정확도 손실이 거의 없었지만, 지연이 약 1.2배 증가했다. 이러한 트레이드오프를 레이어 별로 자동 선택하도록 하는 소프트웨어 스케줄러를 구현했으며, 전체 시스템 수준에서 평균 1.4×의 에너지 효율 향상을 얻었다.
결론적으로, CORVET은 CORDIC 기반의 저전력 MAC와 시간‑다중화된 다중 NAF 블록을 결합해, 엣지 AIoT 환경에서 요구되는 높은 처리량, 낮은 전력, 그리고 유연한 정밀도 조절을 동시에 만족한다. 향후 연구에서는 더 높은 비트폭(32‑bit) 지원, 온‑칩 학습 가속, 그리고 비정형 메모리 인터페이스와의 통합을 통해 범용 AI 가속기로의 확장을 목표로 하고 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기