이미지 초해상도와 이중선형 풀링을 활용한 내시경 조직 현미경 개선
본 논문은 미니어처화된 공초점 레이저 내시경(CLE)에서 발생하는 저해상도와 픽셀화 문제를 해결하기 위해 1차 및 2차 통계량을 결합한 새로운 어텐션 메커니즘인 Residual Bilinear Attention Module(RBAM)을 제안한다. 공간·채널 차원 모두에서 1차(평균) 풀링과 2차(공분산 기반) 풀링을 동시에 수행해 특징 간 상관관계를 강조함으로써 경량화된 CNN이 실시간 초해상도 복원을 가능하게 한다. 세 개의 공개 CLE 데이…
저자: Saeed Izadi, Darren Sutton, Ghassan Hamarneh
본 논문은 미니어처화된 공초점 레이저 내시경(Confocal Laser Endomicroscopy, CLE)에서 발생하는 저해상도와 픽셀화 문제를 딥러닝 기반 초해상도(Super‑Resolution, SR) 기법으로 해결하고자 한다. 기존의 SR 연구는 주로 1차 통계(채널 평균)만을 이용해 어텐션을 계산하거나, 복잡한 Squeeze‑Excitation 구조를 통해 채널 간 의존성을 간접적으로 반영했다. 그러나 이러한 방법은 고주파 세부 정보를 충분히 포착하지 못한다는 한계가 있다.
이에 저자들은 1차와 2차 통계량을 동시에 활용하는 새로운 어텐션 메커니즘인 Residual Bilinear Attention Module(RBAM)을 제안한다. RBAM은 채널‑어텐션(CA)와 공간‑어텐션(SA) 두 브랜치를 병렬로 구성한다.
채널‑어텐션에서는 입력 피처맵에 대해 3×3 Conv‑2‑layer를 거쳐 고수준 피처 H_conv을 만든 뒤, 1차 풀링(채널별 평균)으로 C 차원의 벡터 F₁ˢᵗ_ca를 얻는다. 이어서 피처를 평탄화하고 채널 간 공분산 행렬 Σ∈ℝ^{C×C}를 계산한다. Σ의 각 행은 해당 채널이 다른 모든 채널과 갖는 상관관계를 나타내며, 1×C 컨볼루션을 적용해 2차 채널 어텐션 F₂ⁿᵈ_ca를 추출한다. 두 어텐션을 합산하고 1‑D Conv‑ReLU‑Conv‑ReLU 흐름을 거쳐 시그모이드 스케일링 계수를 만든 뒤, 원본 피처에 원소곱해 채널 강조를 수행한다.
공간‑어텐션에서는 채널 차원을 평균 풀링해 1×H×W 형태의 1차 공간 어텐션 F₁ˢᵗ_sa를 만든다. 이후 피처를 8×8(논문 구현)로 다운샘플링하고 평탄화·공분산 행렬 Σ∈ℝ^{(H₀W₀)×(H₀W₀)}를 계산한다. 1×(H₀W₀) 컨볼루션을 적용해 2차 공간 어텐션 F₂ⁿᵈ_sa를 얻고, 이를 1×1 Conv‑시그모이드로 정규화한 뒤 모든 채널에 동일하게 적용해 공간 강조를 수행한다.
두 브랜치의 결과는 채널 차원에서 concat하고 1×1 Conv로 통합한다. 마지막에 잔차 연결을 더해 입력 피처와 합산함으로써 학습 안정성을 높이고, 깊은 네트워크에서 발생할 수 있는 그래디언트 소실을 완화한다.
전체 네트워크 구조는 다음과 같다. 입력 LR 이미지 I_LR∈ℝ^{1×W×H}를 3×3 Conv(64)로 초기 피처 H₀을 추출하고, B=5개의 RBAM을 순차적으로 적용해 고수준 피처 H_B를 만든다. 이후 sub‑pixel convolution을 이용해 공간 해상도를 r배( r=2 또는 4)로 확대하고, 1×1 Conv를 통해 최종 SR 이미지 I_SR∈ℝ^{1×rW×rH}를 출력한다. 파라미터 수는 약 0.5 M으로 경량화되어 실시간(≤30 ms) 추론이 가능하다.
실험은 세 개의 공개 CLE 데이터셋을 사용했다. CLE100(30명, 181이미지), CLE200(32명, 262이미지), CLE1000(11명, 1025이미지)이며, 각 데이터셋을 80 % 학습, 20 % 검증으로 나누었다. LR 이미지는 bicubic 다운샘플링(×2, ×4)으로 생성했으며, 텍스처가 풍부한 이미지( bicubic PSNR이 평균 이하인 경우)만을 평가에 사용했다.
비교 대상은 전통적 ANR, A+, GR 등 3가지와 최신 딥러닝 기반 SRCNN, VDSR, DRCN, LapSRN, SESR 등 8가지 총 11가지 방법이다. 평가 지표는 PSNR, SSIM, IFC 및 추론 시간이다.
결과는 다음과 같다. 2× SR에서 RBAM은 CLE100에서 36.91 dB(PSNR), 0.9321(SSIM), CLE200에서 39.45 dB, 0.9590, CLE1000에서 38.22 dB, 0.9501을 기록해 모든 기존 방법을 앞섰다. 4× SR에서도 RBAM은 CLE100에서 31.84 dB, 0.7315, CLE200에서 33.11 dB, 0.7852, CLE1000에서 32.47 dB, 0.7874를 달성했다. 특히 2차 풀링을 포함한 채널·공간 어텐션을 동시에 사용했을 때 1차만 사용했을 때보다 평균 0.12 dB 이상의 PSNR 향상이 있었으며, 이는 고주파 텍스처 복원에 크게 기여한다.
시각적 비교에서도 RBAM은 세포막, 세포내 공간 등 미세 구조를 선명하게 복원했으며, 이는 임상 현장에서 실시간 진단 보조에 큰 가치를 제공한다. 파라미터 효율성 측면에서 RBAM은 SESR보다 적은 파라미터(≈0.5 M vs ≈0.7 M)로 비슷하거나 더 나은 성능을 보였고, 추론 시간도 0.07 s 수준으로 실시간 적용에 충분히 적합했다.
논문의 한계로는 공분산 행렬 계산이 메모리·연산 비용을 증가시킬 수 있다는 점이며, 현재 구현은 8×8 다운샘플링을 고정했기 때문에 다양한 해상도와 도메인에 대한 일반화 검증이 추가로 필요하다. 향후 연구에서는 효율적인 근사 공분산 계산, 멀티스케일 어텐션 결합, 비지도 학습 기반 SR과의 융합 등을 통해 더욱 견고하고 범용적인 모델을 개발할 수 있을 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기