퍼커션 인식 시간 확장을 위한 선택적 스펙트로그램 압축

본 논문은 오디오 신호의 시간‑스케일 변조에서 널리 사용되는 페이즈 보코더(PV)의 핵심 문제인 퍼커션 스미어링(percussion smearing)을 근본적으로 해결하고자 한다. 기존 PV는 고정된 분석 윈도우와 일정한 hop size를 사용해 단일 STFT를 계산하고, magnitude 스펙트로그램은 그대로 두고 phase만을 시간‑방향 미분값을 α배 확대해 재구성한다. 이러한 방식은 신호를 순수한 사인파 합으로 모델링하는 가정에 기반하므로, 톤 성분에는 적합하지만 급격한 에너지 변화를 갖는 퍼커시브 성분에 대해서는 시간‑축이 과도하게 확장돼 에너지가 여러 프레임에 걸쳐 퍼지는 현상이 발생한다. 결과적으로, 새로 생성된 phase는 순간적인 변화를 정확히 반영하지만, 이를 적용할 magnitude는 이미 시간‑축이 늘어난 형태이므로 합성 시 에너지 누수가 일어나 스미어링이 나타난다. 이 문제를 해결하기 위해 저자들은 비정상 가보 변환(Nonstationary Gabor Transform, NSDGT)의 가변 윈도우·hop 기능을 활용한다. NSDGT는 프레임마다 서로 다른 윈도우 길이와 hop size를 허용하면서도 완전 복원성을 보장하는 프레임워크이다. 논문에서는 퍼커시브 이벤트가 존재하는 구간을 자동으로 탐지한 뒤, 해당 구간에 짧은 윈도우와 큰 hop을 할당한다. 짧은 윈도우는 순간적인 에너지 집중을 유지하고, 큰 hop은 프레임 수를 감소시켜 프레임 간 중복을 최소화한다. 이렇게 얻어진 NSDGT 계수는 기존 DGT와 달리 프레임마다 다른 윈도우와 hop을 갖지만, 프레임워크 자체가 완전 복원성을 보장하므로 에너지 손실 없이 역변환이 가능하다. SELEBI(Selective window compression with stable inversion) 알고리즘은 다음과 같은 순서로 동작한다. 1) 입력 신호에 대해 에너지 기반 퍼커시브 검출기를 적용해 시간‑축에서 높은 스펙트럼 엔벨로프 변화를 식별한다. 검출기는 일반적으로 복소수 스펙트럼의 에너지 변화율을 이용해 임계값을 초과하는 프레임을 퍼커시브 구간으로 판단한다. 2) 검출된 구간에 대해 사전 정의된 최소/최대 윈도우 길이와 hop 비율을 매핑해 가변 분석 파라미터 aₙ(분석 hop)와 Wₙ(윈도우 길이)를 할당한다. 비퍼커시브 구간에서는 전통적인 긴 윈도우와 작은 hop을 유지해 주파수 해상도를 확보한다. 3) NSDGT를 수행해 magnitude |Xₙ|와 phase Φₙ를 동시에 얻는다. 여기서는 기존 PV와 동일한 phase‑propagation(시간‑방향 미분값을 α배 확대) 혹은 향상된 phase‑locking, 혹은 최신 Phase Gradient Heap Integration(PGHI) 방식을 적용할 수 있다. 4) 합성 hop eₐₙ=⌈α aₙ⌉을 사용해 역 NSDGT(iNSDGT)를 수행한다. NSDGT의 완전 복원성 보장은 합성 단계에서 에너지 손실 없이 정확한 시간‑확장 신호를 재생성한다. 이러한 설계는 두 가지 중요한 이론적 장점을 제공한다. 첫째, NSDGT는 프레임마다 다른 윈도우와 hop을 허용하면서도 전체 변환이 프레임(프레임) 집합으로서의 안정성을 유지한다. 이는 프레임워크가 파리시안(프레임) 집합을 완전한 프레임(프레임)으로 구성하므로, 가변 파라미터에도 불구하고 역변환이 정확히 이루어진다. 둘째, 가변 윈도우·hop 설계가 magnitude‑phase 일치를 보장한다. 짧은 윈도우로 얻은 magnitude는 실제 퍼커시브 이벤트의 지속 시간과 거의 일치하므로, phase를 동일한 시간‑스케일(α)로 확장해도 시간‑축 불일치가 발생하지 않는다. 따라서 기존 PV에서 발생하던 “phase‑magnitude mismatch”가 사라진다. 실험에서는 다양한 음악 및 드럼 샘플에 대해 α=1.5 ~ 2.5 범위의 스트레칭을 적용했다. 객관적 지표인 SDR(Signal‑to‑Distortion Ratio), SIR(Signal‑to‑Interference Ratio), SAR(Signal‑to‑Artifact Ratio)뿐 아니라 주관적 청취 테스트에서도 기존 PV, phase‑locking 기반 방법, 그리고 최근의 PGHI 대비 현저히 낮은 스미어링과 높은 자연스러움을 기록했다. 특히, 높은 stretch factor에서도 퍼커시브 트랜지언트의 피크 높이와 지속 시간이 원본에 근접했으며, 에너지 보존 측면에서도 0.1 dB 이하의 손실만을 보였다. 시각적 스펙트로그램 분석에서도 SELEBI는 퍼커시브 이벤트가 시간‑축에 거의 변형되지 않은 모습을 보여, magnitude와 phase가 일치함을 확인할 수 있었다. 한계점으로는 퍼커시브 이벤트 검출 정확도에 의존한다는 점이다. 검출이 누락되면 해당 구간에 긴 윈도우가 적용돼 스미어링이 재발할 수 있다. 또한, 가변 hop을 크게 설정하면 시간‑축 샘플링이 불균등해져 실시간 구현 시 버퍼 관리가 복잡해질 수 있다. 이러한 점은 향후 연구에서 적응형 검출기와 버퍼링 전략을 통해 보완될 수 있다. 결론적으로, SELEBI는 NSDGT 기반의 가변 윈도우·hop 설계로 magnitude‑phase 불일치를 근본적으로 해소하고, 완전 복원성을 유지하면서 퍼커시브 성분의 스미어링을 크게 감소시키는 실용적인 시간‑확장 솔루션이다. 이는 음악 제작, 리믹싱, 그리고 실시간 퍼포먼스 등 다양한 오디오 응용 분야에 바로 적용 가능하며, 향후 더 정교한 이벤트 검출 및 실시간 구현 연구와 결합될 경우 더욱 강력한 도구가 될 것으로 기대된다.

퍼커션 인식 시간 확장을 위한 선택적 스펙트로그램 압축

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기