하이브리드 어텐션 잔차 U‑Net을 활용한 저선량 CBCT 엣지 보존 노이즈 감소

본 논문은 고해상도 인간 반악골 CBCT 데이터를 이용해, 하이브리드 어텐션 트랜스포머 블록과 잔차 학습을 결합한 HARU‑Net을 제안한다. 스킵 연결에 삽입된 Hybrid Attention Block(HAB)과 bottleneck의 Residual Hybrid Attention Group(RHAG)이 전역 및 지역 특징을 효과적으로 통합해 저선량 CBCT의 강한 공간적 잡음을 억제하면서 엣지를 보존한다. PSNR 37.52 dB, SSIM …

저자: Khuram Naveed, Ruben Pauwels

하이브리드 어텐션 잔차 U‑Net을 활용한 저선량 CBCT 엣지 보존 노이즈 감소
본 연구는 저선량 CBCT에서 발생하는 강한 공간적 잡음을 효과적으로 억제하면서, 진단에 필수적인 엣지를 보존하는 새로운 딥러닝 모델인 HARU‑Net(Hybrid Attention Residual U‑Net)을 제안한다. 연구 배경으로는 CBCT가 치과·구강외과 분야에서 저용량 3D 영상을 제공하지만, 방사선량을 낮추는 과정에서 양자 잡음과 전자 잡음이 복합적으로 나타나 영상 품질이 저하된다는 점을 들었다. 기존의 전통적 필터링 기법은 잡음 억제는 가능하나 고주파 엣지를 손실하기 쉽고, 최신 딥러닝 기반 방법은 고해상도 CBCT 데이터가 부족해 학습이 제한된다는 문제점이 있었다. 이를 해결하기 위해 저자들은 21개의 인간 반악골 시료를 3D Accuitomo 170 CBCT 시스템으로 고용량(90 kV, 5 mA, 30.8 s) 촬영하고, 0.08 mm 등축 voxel로 재구성하였다. 각 3D 볼륨을 전·후·측면으로 슬라이스화해 26,317장의 2D 이미지 세트를 구축하였다. 이후 양자 잡음(N(0,σ_q²))과 전자 잡음(N(0,σ_e²))을 가우시안으로 모델링해, 고용량 이미지에 합성함으로써 저선량(noisy)·고선량(clean) 쌍을 만들었다. 전처리 단계에서는 K‑means 기반 전경‑배경 분리를 수행하고, 형태학적 팽창·구멍 메우기, 계층적 컨투어 검출을 통해 정확한 ROI 마스크를 생성하였다. 마스크로부터 바운딩 박스를 추출하고, 박스 내부에서 256×256 크기의 패치를 동적으로 선택해 학습·검증·테스트용 데이터셋을 구성하였다. 학습 데이터는 50,026개의 패치, 검증·테스트 데이터는 각각 8,971·10,462 패치로 구성되었다. HARU‑Net의 핵심 설계는 네 가지 블록으로 이루어진다. (1) Residual Convolutional Encoding Block은 3×3 Conv‑LeakyReLU‑3×3 Conv와 1×1 Projection을 결합해 잔차 경로를 제공, 깊은 네트워크에서도 안정적인 그래디언트 흐름을 보장한다. (2) Hybrid Attention Block(HAB)은 스킵 연결에 삽입돼, Channel‑Attention과 Spatial‑Attention을 결합한 멀티‑헤드 Self‑Attention을 수행해 전역적 컨텍스트와 지역적 특징을 동시에 강조한다. (3) Bottleneck에 위치한 Residual Hybrid Attention Group(RHAG)은 여러 HAB를 스택하고 잔차 연결을 추가해, 가장 깊은 레이어에서 장거리 의존성을 효과적으로 모델링한다. (4) Residual Convolutional Decoding Block은 업샘플링과 HAB에서 전달된 어텐션 정보를 활용해 고해상도 특징을 복원한다. 전체 구조는 U‑Net의 대칭형 인코더‑디코더 형태를 유지하면서, 트랜스포머 기반 어텐션을 적절히 배치해 연산량을 최소화한다. 학습은 L1 손실과 Adam 옵티마이저를 사용해 100 epoch 동안 진행했으며, 배치 크기 16, 초기 학습률 1e‑4를 적용했다. 평가 지표는 PSNR, SSIM, GMSD 외에도 FLOPs와 파라미터 수를 포함했다. 실험 결과, HARU‑Net은 SwinIR(PSNR 36.81 dB, SSIM 0.9472)와 Uformer(PSNR 36.45 dB, SSIM 0.9448)를 능가해 PSNR 37.52 dB, SSIM 0.9557, GMSD 0.1084를 기록했다. 연산 측면에서는 FLOPs가 SwinIR 대비 약 30 % 감소했고, 파라미터 수는 12 M 이하로 경량화돼 실시간 추론이 가능했다. Ablation Study에서는 HAB, RHAG, Residual Conv 블록을 각각 제거했을 때 PSNR 감소가 0.31~0.48 dB에 이르는 것을 확인했으며, 특히 RHAG의 부재가 전역 구조 복원에 가장 큰 영향을 미쳤다. 한계점으로는 cadaver 데이터에 기반한 시뮬레이션 잡음이 실제 환자 스캔의 복합 잡음 특성을 완전히 반영하지 못한다는 점, 그리고 데이터 양이 제한적이어서 다양한 인구통계학적 변이를 포괄하지 못한다는 점을 들었다. 향후 연구 방향은 (1) 실제 환자 데이터를 포함한 대규모 CBCT 데이터베이스 구축, (2) 자기 지도 학습·노이즈2노이즈(Noise2Noise)와 같은 무감독 학습 기법과의 결합, (3) 멀티‑모달(CT·MRI) 정합을 통한 정밀한 라벨링, (4) 임상 워크스테이션에 최적화된 GPU/FPGA 가속 구현을 제시한다. 최종적으로 HARU‑Net은 저선량 CBCT의 진단 품질을 크게 향상시켜, 방사선 피폭을 최소화하면서도 정확한 치료 계획 수립을 지원하는 실용적인 솔루션으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기