미국 도·군 간 이동 흐름의 이중표준화와 계층적 군집화 시각화

본 논문은 1995‑2000년 미국 3,107개 카운티 간 인구 이동 데이터를 이중표준화(모든 행·열 합을 1로 맞춤)한 뒤, 부지배 고유벡터와 강성 성분 계층적 군집화를 이용해 행·열 순서를 재배열한 매트릭스 플롯을 제시한다. 재배열된 행렬에서 ‘코스모폴리탄’(Sunbelt)과 ‘블랙벨트’(Deep South) 지역 간 이동 패턴의 차이가 시각적으로 드러난다.

저자: Paul B. Slater

미국 도·군 간 이동 흐름의 이중표준화와 계층적 군집화 시각화
본 논문은 미국 1995‑2000년 사이의 인구 이동 데이터를 이용해, 대규모 비대칭 행렬(3,107 × 3,107)을 구축하고 이를 다양한 시각화와 군집화 기법으로 분석한다. 초기 단계에서는 행렬의 대각선 원소를 0으로 설정하고, 행·열 합을 동일하게 1로 맞추는 이중표준화(bistochasticization)를 수행한다. 이 과정은 각 카운티의 인구 규모 차이를 제거하고, 순수히 ‘상호작용 비율’만을 보존함으로써, 크기 효과를 배제한 순수 이동 패턴을 드러낸다. 이중표준화된 행렬은 모든 행·열의 합이 1이므로, 행렬의 주 고유값은 1이며, 대응 고유벡터는 균등 벡터이다. 따라서 의미 있는 구조를 탐색하기 위해 저자는 부지배 고유값(0.906253)에 대응하는 좌·우 고유벡터를 사용한다. 좌 고유벡터는 각 카운티가 받는 인구 유입 강도를, 우 고유벡터는 내보내는 인구 양을 나타낸다. 이 두 고유벡터를 기준으로 행·열 순서를 재배열한 매트릭스 플롯(Fig. 3, 4)은 기존 알파벳 순서에서 보였던 대각선 클러스터링이 크게 약화되고, 전체가 두 개의 큰 블록으로 구분되는 구조를 보여준다. 이는 인구 이동이 주로 지역 내가 아니라, 특정 ‘허브’와 ‘주변’ 사이에서 이루어진다는 가설을 뒷받침한다. 다음으로 저자는 강성 성분(strong component) 기반 계층적 군집화를 적용한다. 이는 방향 그래프에서 강한 연결 성분을 이용한 단일 연결법의 확장으로, 3,107개의 카운티를 38페이지에 걸친 덴드로그램으로 정렬한다. 이 순서에 따라 행렬을 재배열한 결과(Fig. 5)는 두드러진 ‘코스모폴리탄’ 군집과 ‘프로빈셜’ 군집을 명확히 구분한다. ‘코스모폴리탄’ 군집은 플로리다, 남부 캘리포니아, 텍사스 등 Sunbelt 지역에 속한 카운티들로, 전국 전역으로 인구 흐름을 주도하는 허브 역할을 한다. 반면 ‘프로빈셜’ 군집은 미시시피·앨라배마·조지아 등 Deep South에 위치한 카운티들로, 이동이 주로 지역 내부에 머무르는 경향을 보인다. 이와 별도로, Mathematica의 DirectAgglomerate 명령을 이용해 대칭 가정 하에 군집화를 수행한 결과(Fig. 8, 9)도 제시한다. 전치 행렬에 적용했을 때 군집 구조가 약간 변하지만, 코스모폴리탄‑프로빈셜 이분법은 일관되게 나타난다. 통계적 검증으로는 다양한 순서 간 피어슨 상관계수를 계산하였다. 행정적 알파벳 순서와 고유벡터·군집화 기반 순서 사이의 상관계수는 0.037~0.076 정도로 거의 무상관이며, 0.0353 이상의 절대값은 95 % 수준에서 유의함을 보인다. 이는 전통적인 행정 구역 기반 시각화가 데이터 내재 구조를 충분히 포착하지 못함을 의미한다. 논문의 마지막 부분에서는 이러한 방법론이 인구 이동 외에도 학술 인용 네트워크, 무역 흐름, 금융 거래 등 다양한 트랜잭션 흐름 데이터에 적용될 수 있음을 제시한다. 특히, 과학·자연·PNAS와 같은 고임팩트 저널이 인용 네트워크에서 ‘코스모폴리탄’ 허브 역할을 할 가능성을 언급하며, 향후 연구 방향을 제시한다. 전반적으로, 이중표준화와 부지배 고유벡터, 강성 성분 계층적 군집화를 결합한 시각화는 대규모 비대칭 흐름 데이터의 숨겨진 구조를 효과적으로 드러내며, 정책 입안자와 연구자가 지역 간 이동 패턴을 이해하고, 허브 지역에 대한 집중적인 정책을 설계하는 데 유용한 도구가 된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기