다차원 비전 트랜스포머를 위한 텐서 코사인 곱 기반 효율화 모델

본 논문은 이미지의 다중채널 구조를 텐서 형태로 그대로 보존하면서, 이산 코사인 변환(DCT) 기반의 텐서 코사인 곱( ⋆₍c₎ )을 이용해 모든 선형 연산을 대체한다. 채널 수 C에 대해 파라미터를 1/C만큼 균일하게 감소시키면서도, 기존 비전 트랜스포머와 동등한 정확도를 유지한다.

저자: Alaa El Ichi, Khalide Jbilou

다차원 비전 트랜스포머를 위한 텐서 코사인 곱 기반 효율화 모델
**1. 서론 및 배경** 비전 트랜스포머(ViT)는 이미지 패치를 토큰화하고 전역 어텐션을 적용함으로써 뛰어난 성능을 보였지만, 토큰 수가 이미지 해상도에 비례해 급증하면서 O(N²) 연산·메모리 복잡도가 실용성을 저해한다. 기존 효율화 방법(스파스 어텐션, 윈도우 어텐션, 저랭크 근사 등)은 여전히 벡터화된 토큰을 사용해 다중채널 구조를 충분히 활용하지 못한다. **2. 텐서 코사인 곱( ⋆₍c₎ )의 정의와 성질** - **DCT‑III 변환**: Φ_C는 C × C 실수 직교 행렬이며, X ×₃ Φ_C 로 채널 축에 DCT를 적용한다. - **Tensor Cosine Product**: A ∈ ℝ^{m×n×C}, B ∈ ℝ^{n×ℓ×C}에 대해 C = A ⋆₍c₎ B = IDCT₃( DCT₃(A) · DCT₃(B) ). 여기서 “·”는 각 프론탈 슬라이스(k)마다 행렬 곱을 의미한다. - **c‑transpose**: A^{⊤c}는 DCT 도메인에서 각 슬라이스를 전치한 뒤 IDCT를 적용한다. - **정규성·직교성**: Q가 f‑orthogonal(각 슬라이스가 직교)이면 Q^{⊤c} ⋆₍c₎ Q = I_{m,C}. **3. 기존 ViT와의 차이점** 표준 ViT는 패치를 P×P 크기로 자른 뒤 C 채널을 포함해 d_eff = P² C 차원의 벡터로 변환한다. 이 과정에서 공간·채널 구조가 사라진다. TCP‑ViT는 각 패치를 d = P² 차원의 2D 텐서에 C 차원을 추가해 X_i ∈ ℝ^{d×C} 로 유지한다. **4. TCP‑ViT 핵심 구성 요소** - **t‑Linear**: X ⋆₍c₎ W 로 구현되는 선형 투영은 DCT 도메인에서 C개의 독립 행렬 곱으로 분해된다. 파라미터는 기존 d_eff × d_eff 에서 d × d' 로 1/C 축소된다. - **t‑Softmax**: DCT 슬라이스별로 소프트맥스를 적용해 각 주파수 성분마다 독립적인 어텐션 가중치를 만든다. - **t‑Attention**: Q ⋆₍c₎ K^{⊤c} 를 스케일링 후 t‑Softmax 로 정규화하고 V와 다시 c‑product을 수행한다. - **t‑MHSA**: H개의 헤드를 병렬로 처리하며, 헤드 간 파라미터 공유가 필요 없고, 각 헤드의 차원 d_h = d / H 로 정의된다. - **FFN**: 두 개의 t‑Linear 레이어와 GELU 비선형성을 사용한다. **5. 복잡도 및 파라미터 분석** 표준 ViT 한 레이어의 파라미터는 Θ_std = (4 + 2 r_ff) δ² + 4 δ (δ = d_eff). TCP‑ViT는 동일 구조에 대해 Θ_TCP = (4 + 2 r_ff) (δ² / C) + 4 (δ / C) 로 정확히 1/C 비율 감소한다. 연산 복잡도도 O(N d_h C) 로 선형에 가깝게 유지되며, 메모리 요구량은 O(N C) 로 크게 감소한다. **6. 실험 결과** - **분류**: ImageNet‑1K에서 TCP‑ViT‑B/16 (C = 3) 은 파라미터 86 M → 28 M, Top‑1 정확도 81.5 % → 80.9 % 로 0.6 % 감소. - **세그멘테이션**: ADE20K에서 U‑TCP‑ViT‑L을 적용했을 때 mIoU 45.2 % → 44.8 % 로 미세한 저하. - **고해상도**: 384×384 입력 시 메모리 사용량 12 GB → 3.5 GB, 연산 시간 78 ms → 42 ms. - **채널 수 실험**: C = 6 (멀티스펙트럼) 에서 파라미터 1/6 감소, 정확도 손실 거의 없음. **7. 논의 및 한계** c‑product은 DCT 기반이므로 경계 효과와 저주파 중심 에너지 집중 특성을 활용한다. 그러나 고주파 성분이 중요한 경우(예: 텍스처 세밀화) 성능 저하 가능성이 있다. 또한, 현재 구현은 3차원 텐서에만 적용되며, 비디오나 시계열 데이터에 대한 확장은 추가 연구가 필요하다. **8. 결론** 본 논문은 텐서 코사인 곱이라는 새로운 연산 체계를 제시함으로써, 비전 트랜스포머의 파라미터와 메모리 요구량을 채널 수에 비례해 균일하게 감소시킨다. DCT의 실수 직교성, 빠른 변환 알고리즘, 그리고 텐서 구조 보존을 결합한 설계는 고해상도·고채널 비전 작업에서 실용적인 효율성을 제공한다. 향후 연구는 다른 직교 변환, 하이퍼스펙트럼 데이터, 그리고 하드웨어 가속기 최적화와의 연계 등을 통해 이 접근법을 확장할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기