심층 생성 모델을 활용한 고품질 유리체 OCT 영상 향상
본 연구는 조건부 디노이징 확산 확률 모델(cDDPM) 등 다섯 가지 딥러닝 기법을 이용해 저해상도 ART10 OCT 영상을 고해상도 pseudo‑ART100 영상으로 변환한다. 정량적 지표(PSNR, SSIM, LPIPS)와 두 차례의 시각적 튜링 테스트를 통해 cDDPM이 임상 의사에게 가장 설득력 있는 결과를 제공함을 확인하였다. cDDPM은 획득 시간을 4배 단축하면서도 유리체 구조를 보존하는 데 뛰어난 성능을 보였다.
저자: ** - 논문에 명시된 저자 정보는 제공되지 않았습니다. (예: Simone Sarrocco 등) **
본 논문은 안과에서 널리 사용되는 광간섭단층촬영(OCT) 기술의 한계, 특히 투명도가 높은 유리체 영역의 저해상도 영상(ART10)에서 발생하는 잡음과 움직임 아티팩트를 해결하고자 한다. 기존에는 다중 프레임 평균(예: 10프레임 평균인 ART10, 100프레임 평균인 ART100)을 통해 신호 대 잡음비를 향상시켰지만, 이는 촬영 시간이 선형적으로 증가하고 환자 피로도와 움직임 아티팩트 위험을 높인다. 따라서 저자들은 딥러닝 기반 이미지 복원 기법을 도입해 저해상도 영상을 고해상도와 동등한 품질로 변환함으로써 촬영 시간을 크게 단축하고자 한다.
연구에 사용된 데이터는 스위스 바젤 대학병원에서 6명의 정상 피험자를 대상으로 수집한 스펙트럴 도메인(SD) OCT 영상이다. 각 눈 위치마다 10개의 ART10 영상을 획득했으며, 동일 위치의 10개 ART10을 평균화해 pseudo‑ART100을 생성했다. pseudo‑ART100은 실제 100프레임 평균과는 차이가 있지만, 고품질 기준으로 활용되었다. 추가 검증을 위해 한 명의 피험자에게 ART1, ART10, ART100 모드로 각각 21개의 B‑scan을 촬영한 데이터셋을 별도로 확보했다. 모든 영상은 768 × 512 픽셀의 그레이스케일 이미지이며, 전처리 단계에서 0‑1 정규화와 상하 8픽셀 패딩을 적용했다.
비교 대상 모델은 총 다섯 가지이며, 각각의 구조와 학습 전략은 다음과 같다.
1. **조건부 디노이징 확산 확률 모델(cDDPM)**: 입력 이미지에 점진적으로 가우시안 노이즈를 추가하고, 역방향 과정에서 학습된 디노이징 네트워크를 통해 원본을 복원한다. 조건부 입력으로 ART10을 사용하고, pseudo‑ART100을 목표로 학습한다. 1000개의 확산 단계와 1000개의 샘플링 단계, 선형 변이 스케줄을 채택했다.
2. **브라운니언 브릿지 확산 모델(BBDM)**: 확산 경로를 브라운니언 브릿지로 제한해 샘플링 효율성을 높인다. 사전 학습된 VQ‑GAN의 잠재 공간을 재학습해 OCT 특성에 맞게 조정했다.
3. **U‑Net**: 인코더‑디코더 구조에 스킵 연결을 두어 저해상도 입력을 고해상도 출력으로 직접 매핑한다. L2 손실을 최소화하도록 학습했으며, 50 epoch 이후 최적 성능을 보였다.
4. **Pix2Pix**: 이미지‑투‑이미지 변환 GAN으로, L1 손실과 판별자 손실(LSGAN)을 결합했다. 200 epoch까지 학습했으며, 텍스처 재현에 강점을 보였다.
5. **VQ‑GAN**: 벡터 양자화와 GAN을 결합한 모델로, 고해상도 디테일을 보존한다. 10 epoch만 학습했으며, 상대적으로 적은 파라미터로 빠른 학습이 가능했다.
모든 모델은 동일한 하이퍼파라미터(배치 1, 학습률 2e‑5, AdamW 옵티마이저, 가중치 감쇠 0.01 등)를 적용했으며, 각각의 최적 epoch에서 검증 세트 성능을 기준으로 선택했다. 학습은 NVIDIA RTX 6000 GPU 하나에서 수행되었다.
정량적 평가는 PSNR, SSIM, MSE와 같은 픽셀‑단위 지표와 LPIPS(일반 ImageNet 사전학습 및 RadImageNet 사전학습 두 버전)로 수행했다. 결과는 다음과 같다.
- **U‑Net**: PSNR 30.23 dB, SSIM 0.820 (최고), MSE 가장 낮음.
- **cDDPM**: PSNR 29.85 dB, SSIM 0.812, LPIPS 0.753 (우수), 시각적 품질에서 높은 평가.
- **Pix2Pix**: LPIPS 0.697 (가장 낮음), PSNR 28.90 dB, SSIM 0.795.
- **BBDM**과 **VQ‑GAN**은 전반적으로 낮은 PSNR/SSIM을 보였지만, 텍스처 보존 측면에서 일부 장점을 가졌다.
정량적 지표와는 별도로, 임상적 타당성을 검증하기 위해 두 차례의 시각적 튜링 테스트를 실시했다. 첫 번째 테스트에서는 6개 모델 출력 영상을 모두 제시하고, 전문가가 1~6 순위로 평가하도록 했다. cDDPM이 평균 순위 3.07로 가장 높은 평가를 받았다. 두 번째 테스트에서는 최우수 모델(cDDPM)만을 대상으로 pseudo‑ART100과 비교했으며, 전문가가 “가짜”라고 판단한 비율은 32.9 %였고, 해부학적 구조 보존율은 85.7 %에 달했다. 이는 cDDPM이 실제 고해상도 영상과 구분하기 어려울 정도로 품질이 우수함을 의미한다.
추가 검증을 위해 새로 수집한 ART1, ART10, ART100 데이터를 이용해 모델을 테스트했다. cDDPM은 ART10 대비 약간 낮은 PSNR을 보였지만, 입력을 ART1(단일 프레임)으로 할 경우 전체 이미지에서 PSNR이 향상되는 현상을 보였다. 이는 cDDPM이 입력 노이즈 수준에 따라 적응적으로 디노이징을 수행함을 시사한다. 또한, 유리체 영역에 한정해 PSNR을 측정했을 때, cDDPM이 pseudo‑ART100에 가장 근접한 값을 기록했다.
결론적으로, 본 연구는 정량적 지표와 임상적 주관 평가 사이에 불일치가 존재함을 강조한다. PSNR·SSIM이 높은 모델이 반드시 임상의에게 설득력 있는 결과를 제공하지 않을 수 있기 때문에, 두 평가 방식을 병행하는 것이 중요하다. 특히, cDDPM은 확산 기반 디노이징의 강력함과 샘플링 효율성을 바탕으로, 기존 10배 이상의 프레임 평균에 비해 4배 빠른 촬영 시간으로도 충분히 임상 수준의 유리체 OCT 영상을 제공할 수 있음을 입증했다. 향후 데이터셋 확대, 실시간 추론 최적화, 다양한 안과 질환에 대한 적용 등을 통해 실제 임상 워크플로에 통합될 가능성이 높다. 데이터와 코드는 공개 저장소에 제공될 예정이며, 이는 연구 재현성과 확장성을 크게 높일 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기