분산형 형태 사전 모델링: 2차 차수 Gibbs Random Field의 힘

본 논문은 시각 정보 처리에서 형태 사전(shape prior)을 어떻게 효율적으로 모델링할 수 있는지를 탐구한다. 인간이 복합 형태를 단순 파트의 공간적 조합으로 인식한다는 인지 과학적 근거를 출발점으로 삼아, 초기 비전 단계에서도 형태 정보를 활용하고자 한다. 기존의 전역 형태 모델(레벨셋, 변분 모델)은 전체 형태를 하나의 연속 함수로 표현해 초기 포즈가 정확히 주어져야 하는 제약이 있었으며, 반면 지역 기반 고차 차수 모델은 잠재 변수를 도입해 복잡성을 크게 늘렸다. 저자들은 이러한 복잡성을 2차 차수 Gibbs Random Field(GRF)만으로도 충분히 표현할 수 있음을 보인다. ### 모델 정의 - **도메인**: D⊂ℤ², 각 픽셀을 노드 t 로 정의. - **이웃 구조**: A⊂ℤ²는 변위 벡터 집합. 변위 a∈A에 대해 t와 t′=t+a가 연결된 무방향 그래프를 만든다. 변위 a와 -a가 동시에 포함되지 않도록 ‑A∩A=∅ 로 정의한다. - **라벨링**: y:D→K, K는 파트 라벨 집합에 배경 라벨을 포함한다. - **포텐셜**: 각 변위 a에 대해 동일한 Gibbs 포텐셜 u_a(k,k′)를 정의한다. 포텐셜은 정규화 조건 ∑_{k,k′}u_a(k,k′)=0을 만족한다. - **확률분포**: p(y)=1/Z·exp\Big(∑_{a∈A}∑_{(t,t′)∈E_a} u_a(y_t,y_{t′})\Big) 여기서 Z는 정규화 상수이며, 모든 변위 a에 대해 동일한 포텐셜을 사용함으로써 파라미터 수를 크게 줄인다. ### 외관 모델 이미지 x:D→C에 대해 조건부 독립 모델 p(x|y)=∏_{t∈D}p(x_t|y_t) 를 사용한다. 외관 모델은 다변량 가우시안 혼합으로 구현한다. ### 추론 베이지안 의사결정 프레임워크에서 손실 함수는 픽셀당 오분류 수 C(y,y₀)=∑_t I(y_t≠y₀_t) 로 정의한다. 최적 결정은 각 픽셀에 대해 최대 마진 마스크 y*_t = argmax_k p(y_t=k|x) 를 선택하는 것이지만, 정확한 마진을 계산하는 것은 일반적인 GRF에서는 불가능하다. 따라서 믿음 전파, 변분 근사, 혹은 샘플링(느리지만 정확) 등을 사용한다. ### 학습 – 포텐셜 추정 - **목표**: 로그우도 L(u)=log∑_{y∈B}exp(∑_a∑_{(t,t′)}u_a(y_t,y_{t′}))·p(x|y)−log Z(u) 를 최대화한다. - **그라디언트**: ∂L/∂u_a(k,k′)=E_{p(y|B;u)}

분산형 형태 사전 모델링: 2차 차수 Gibbs Random Field의 힘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기