초음파 혀 윤곽 자동 추출을 위한 도메인 적응 전이학습

본 연구는 서로 다른 초음파 장비와 촬영 프로토콜에서 얻은 소규모 데이터셋에 대해 U‑Net 기반 모델을 전이학습으로 도메인 적응시키는 방법을 탐구한다. 전체 인코더를 고정하고 디코더의 일부 혹은 전체 레이어를 미세조정함으로써 소스와 타깃 도메인 모두에서 균형 잡힌 세그멘테이션 성능을 달성한다. 데이터 양이 증가할수록 성능이 향상되며, 스킵 연결과 컨케테네이션이 있는 U‑Net이 일반 DeconvNet보다 우수함을 확인하였다.

저자: M. Hamed Mozaffari, Won-Sook Lee

초음파 혀 윤곽 자동 추출을 위한 도메인 적응 전이학습
본 논문은 초음파 영상에서 인간 혀의 윤곽을 자동으로 추출하는 작업을 대상으로, 서로 다른 장비와 촬영 조건에서 수집된 두 개의 소규모 데이터셋 간에 전이학습(Transfer Learning) 기반 도메인 적응을 적용하는 방법을 체계적으로 연구하였다. 1. **연구 배경 및 필요성** 초음파는 저비용, 실시간, 비침습적 특성으로 언어학 연구와 제2언어 학습 보조 시스템에서 널리 활용된다. 그러나 초음파 영상은 저대비와 높은 잡음으로 인해 비전문가가 직접 혀 모양을 인식하기 어렵고, 수동 라벨링은 시간 소모가 크고 주관적 오류가 발생한다. 기존의 전통적 이미지 처리 기법(액티브 컨투어 모델 등)은 초기화와 매개변수 조정이 필요하고 연산량이 많아 실시간 적용에 한계가 있다. 최근 딥러닝, 특히 U‑Net과 같은 Fully Convolutional Network(FCN) 기반 모델이 의료 영상 세그멘테이션에서 뛰어난 성능을 보였지만, 한 장비에서 학습된 모델을 다른 장비에 그대로 적용하면 성능 저하가 발생한다는 도메인 차이 문제가 존재한다. 2. **데이터셋 구축** - **Dataset I (uOttawa)**: 캐나다 오타와 대학에서 Linear Transducer와 Sonix Tablet 장비로 촬영된 영상. - **Dataset II (Seeing Speech)**: 공개된 Seeing Speech 프로젝트 영상. 두 데이터셋 모두 2,050 프레임을 “고변동도(2000프레임) + 저변동도(50프레임)” 방식으로 선정하고, 전문가가 반자동 라벨링을 수행하였다. 이후 수평 뒤집기, 제한 회전, 줌 등 자연스러운 변환을 적용해 각각 50,000장의 증강 데이터를 생성하였다. 학습·검증·테스트 비율은 90:5:5로 나누었다. 3. **모델 설계** - **U‑Net**: 인코더 4개의 다운샘플링 블록(각 블록당 2×3×3 Conv + ReLU + BatchNorm)과 Max‑Pooling, 디코더 4개의 업샘플링 Deconv 블록, 마지막 1×1 Conv를 통해 픽셀 수준 이진 마스크를 출력한다. 인코더와 디코더 사이에 스킵 연결을 적용해 고해상도 피처를 보존한다. - **DeconvNet**: U‑Net과 구조는 유사하지만 스킵 연결이 없으며, 디코더가 단일 업샘플링 경로만을 가진다. 두 모델을 모두 TensorFlow‑Keras 환경에서 구현했으며, Adam 옵티마이저(β1=0.9), 고정 학습률(0.001), 배치 크기 10, 최대 5 epoch(각 5,000 iteration)으로 학습하였다. 과적합 방지를 위해 드롭아웃 0.5를 적용하였다. 4. **전이학습 시나리오** - **시나리오 I (Source → Target)**: 소스 도메인(D_S)에서 전체 인코더와 디코더의 일부 레이어(예: conv7, conv8, conv9)를 고정하고, 나머지 디코더 레이어를 타깃 도메인(D_T)에서 미세조정한다. 고정 레이어 수를 0~3개로 바꾸어 “얼마나 많은 디코더를 동결할 것인가”를 실험한다. - **시나리오 II (Target → Source)**: 위 과정을 역전시켜 타깃 도메인에서 학습한 가중치를 소스 도메인에 적용한다. 이는 “음성 전이(negative transfer)” 현상을 확인하기 위한 대조 실험이다. - 또한, 스킵 연결과 컨케테네이션이 전이 효율에 미치는 영향을 별도 실험으로 검증하였다. 5. **실험 결과** - **기본 모델 성능**: 각 모델은 자신이 학습한 소스 도메인에서 Dice 0.65~0.69, 손실 0.28~0.32를 기록했지만, 타깃 도메인에서는 Dice 0.46~0.50, 손실 0.48~0.50으로 크게 떨어졌다. - **디코더 전체 미세조정**: U‑Net에서 디코더 전체를 미세조정했을 때 타깃 도메인 Dice가 0.63으로 상승했고, 소스 도메인에서도 0.58 수준을 유지해 두 도메인 간 격차가 최소화되었다. DeconvNet은 디코더 전체 미세조정 시에도 U‑Net에 비해 개선 폭이 작았다(차이 감소가 제한적). - **디코더 일부 고정**: 디코더 레이어를 많이 고정할수록 타깃 도메인 성능이 급격히 저하되고, 소스 도메인에서는 오히려 성능이 상승하는 현상이 관찰되었다. 이는 고수준 특징이 도메인 특이적이므로, 고정하면 타깃 도메인에 필요한 적응이 이루어지지 않기 때문이다. - **스킵 연결 효과**: 스킵 연결이 있는 U‑Net이 DeconvNet보다 전이 학습 시 더 높은 Dice와 낮은 손실을 보였으며, 특히 디코더 전체 미세조정 시 차이가 두드러졌다. - **데이터 양에 대한 민감도**: 타깃 도메인에서 100, 1,000, 10,000 샘플을 사용해 미세조정했을 때, Dice와 손실 모두 점진적으로 개선되었다. 10,000 샘플에서는 타깃 도메인 Dice가 0.70에 근접했고, 소스 도메인과의 차이가 최소화되었다. 6. **균형점(Balanced Point) 탐색** 저자들은 “균형점”을 “소스와 타깃 도메인 모두에서 허용 가능한 성능을 동시에 달성하는 디코더 레이어 수”로 정의하였다. 실험 결과, 디코더 전체를 미세조정했을 때 두 도메인 모두에서 Dice가 0.58~0.63 사이에 머물며, 이는 가장 실용적인 균형점으로 제시된다. 7. **논의 및 결론** - 인코더는 저수준 이미지 특징(에지, 텍스처 등)을 학습하므로 고정해도 전이 성능에 큰 영향을 주지 않는다. - 디코더는 도메인 특이적인 고수준 구조(혀의 형태, 잡음 패턴 등)를 포함하므로, 가능한 한 많이 미세조정하는 것이 성능 향상에 핵심이다. - 스킵 연결과 컨케테네이션은 전이 과정에서 정보 손실을 최소화해 전반적인 정확도를 높인다. - 소규모 타깃 데이터(수백 장)와 적절한 데이터 증강만으로도 충분히 강건한 모델을 만들 수 있다. 이는 초음파 혀 영상처럼 라벨링 비용이 높은 분야에 큰 의미가 있다. - 향후 연구에서는 더 다양한 장비와 촬영 환경을 포함한 멀티도메인 학습, 학습률 스케줄링, 그리고 실시간 추론을 위한 경량화 모델 설계가 필요하다. 이와 같이, 본 연구는 초음파 혀 윤곽 자동 추출에 있어 도메인 적응 전이학습의 실용적인 가이드라인을 제시하고, 실시간 언어 치료 및 제2언어 학습 보조 시스템에 바로 적용 가능한 모델 설계 전략을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기