PDM MEMS 마이크와 PFM 스파이킹 시스템 인터페이스 신경형 청각 센서 적용
본 논문은 저전력 PDM 방식 MEMS 마이크의 1비트 고속 데이터 스트림을 직접 스파이킹 형태인 PFM 신호로 변환하는 VHDL 기반 인터페이스(PSI)를 제안한다. 변환된 스파이크는 Neuromorphic Auditory Sensor(NAS)의 입력으로 사용되어 아날로그‑디지털‑스파이크 변환 단계에서 발생하는 지연을 제거한다. 실험 결과 THD‑39.5 dB, SNR‑59.1 dB를 달성했으며, Spartan‑6 FPGA 자원의 0.45 %…
저자: Angel Jimenez-Fern, ez, Daniel Gutierrez-Galan
본 논문은 신경형 청각 센서(Neuromorphic Auditory Sensor, NAS)의 입력 단계에서 발생하는 시간 지연과 전력 소모 문제를 해결하기 위해, 저전력 PDM(Pulse Density Modulation) 방식 MEMS 마이크의 1비트 고속 데이터 스트림을 직접 스파이킹 형태인 PFM(Pulse Frequency Modulation) 신호로 변환하는 하드웨어 인터페이스인 PSI(PDM‑to‑Spikes Interface)를 설계·구현하였다.
**배경 및 필요성**
전통적인 NAS는 디지털 오디오 코덱으로부터 48 kHz 수준의 샘플을 받아 이를 스파이크 스트림으로 변환한다. 코덱의 최소 샘플링 주기가 22 µs~10 µs 정도이며, 이는 고속 청각 처리, 특히 소리 위치 추정과 같은 실시간 응용에서 병목이 된다. 반면, PDM 마이크는 3.125 MHz(320 ns) 주기의 1비트 펄스를 제공하며, 펄스 밀도 자체가 이미 레이트‑코딩된 형태이므로 추가적인 디지털‑아날로그‑스파이크 변환 없이 바로 스파이크 신호로 활용할 수 있다.
**PSI 구조**
PSI는 두 단계로 구성된다.
1. **PDM 프론트‑엔드 (PFC)** – 50 MHz 시스템 클럭을 16으로 나누어 3.125 MHz PDM 클럭을 생성한다. FSM 기반 엣지 디텍터가 매 클럭 사이클마다 PDM 데이터 라인을 샘플링하고, ‘1’이면 양극성 스파이크, ‘0’이면 음극성 스파이크를 1클록 폭의 펄스로 출력한다. 이 단계에서 생성된 스파이크는 ISI가 고정(320 ns)이며, 고주파 잡음이 포함된 원시 형태이다.
2. **스파이크 밴드패스 필터 (SBPF)** – 두 개의 1차 스파이크 저역통과 필터(SLPF)와 Spike Hold‑&‑Fire(SH&F) 블록으로 구성된다. 양극성 SLPF는 높은 차단 주파수를, 음극성 SLPF는 낮은 차단 주파수를 갖는다. SH&F는 두 필터 출력의 차이를 계산해 중간 대역만을 남기며, 결과적으로 DC와 고주파 성분이 억제된 스파이크 스트림을 제공한다. 이 과정에서 ISI가 입력 음압에 비례하도록 조정되어, 실제 아날로그 신호의 진폭을 스파이크 간 간격으로 정확히 재현한다.
**FPGA 구현 및 리소스**
PSI는 Xilinx Spartan‑6 XC6LX150T에 VHDL로 합성되었다. 사용된 슬라이스 레지스터는 204개(전체 184 304개 중 0.11 %), LUT는 409개(전체 92 152개 중 0.44 %)에 불과했다. 최대 동작 클럭은 147 MHz이며, 전력 소모는 XPower 시뮬레이션 기준 2.67 mW였다. 마이크 자체 전력(0.98 mW)을 포함해 양이음 시스템 전체 전력은 약 4.6 mW로, 배터리 구동이 가능한 수준이다.
**실험 1 – 단일 톤 재현**
500 Hz 순수 톤을 스피커로 재생하고, PSI의 두 단계 출력을 AER‑USB 인터페이스를 통해 캡처하였다. PDM 프론트‑엔드 출력에서는 80 kHz 이상의 제로‑크로싱이 관찰되어 고주파 잡음이 심했으며, ISI 기반 재구성 신호는 오프셋과 노이즈가 섞여 있었다. 반면 SBPF 출력에서는 제로‑크로싱이 1 kHz 수준으로 감소했고, ISI 기반 재구성 신호는 깨끗한 사인파 형태를 보였다. 측정된 THD는 -39.51 dB, SNR은 59.12 dB로, 기존 PCM‑기반 변환에 비해 현저히 우수한 품질을 입증했다.
**실험 2 – 주파수 스윕**
20 Hz‑20 kHz 범위의 선형 주파수 스윕을 입력으로 하여 PSI의 주파수 응답을 Bode 다이어그램으로 분석하였다. 70 Hz부터 12 kHz까지 이득이 상승하고, 그 이후 고주파가 점차 감쇠되는 저역통과 특성을 보였다. 위상 응답은 평균 -4.5 rad이며, 차단 주파수 근처에서 위상이 급격히 변하는 전형적인 저역통과 필터의 거동을 확인했다.
**NAS와의 통합**
PSI를 128‑채널 양이음 NAS에 직접 연결하여, 남성 음성 “Si vis pacem, para bellum”을 입력하였다. 결과 코클레오그램과 소노그램은 각각 200 Hz‑5 kHz 대역에서 명확히 구분되는 채널 활성화를 보여, 스파이크 기반 청각 처리 파이프라인 전체가 정상적으로 동작함을 증명했다.
**의의 및 활용 가능성**
PSI는 고속, 저전력, 소형화가 요구되는 로봇 청각, 웨어러블 청각 보조기기, 실시간 음성 인식 등에 최적화된 솔루션이다. PDM 마이크와 직접 연결함으로써 별도의 오디오 코덱이 필요 없으며, FPGA 혹은 ASIC 수준에서 최소 리소스로 구현 가능하다. 또한, 스파이크 기반 신경망과의 연계가 자연스럽게 이루어져, 신경형 청각 시스템의 전체 파이프라인을 간소화하고 전력 효율을 크게 향상시킨다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기