정보량과 무작위성: 콜모고로프 복잡성의 전면 탐구

본 논문은 “정보량”이라는 개념을 어떻게 정량화할 것인가에 대한 세 가지 전통적 접근법을 체계적으로 정리한다. 첫 번째 섹션에서는 정보의 대상이 될 수 있는 다양한 수학적 객체(정수, 문자열, 그래프, 실수열 등)를 제시하고, 이를 이진 문자열로 인코딩하는 기본 아이디어를 소개한다. 두 번째 섹션에서는 조합론적 방법을 상세히 다룬다. 고정 길이 코드는 알파벳의 각 기호를 ⌈log s⌉ 비트로 매핑하고, 가변 길이 프리픽스 코드는 빈도에 따라 짧은 코드워드를 할당함으로써 압축 효율을 높인다. 엔트로피 H는 문자 빈도 분포에 의해 정의되며, 샤논의 소스 코딩 정리는 모든 프리픽스 코드가 n·H 이하의 평균 길이를 달성할 수 있음을 보인다. 세 번째 섹션은 확률론적 접근을 다루며, 엔트로피와 정보량 사이의 수학적 관계를 다시 한 번 강조한다. 특히, Kraft 부등식과 Gibbs 부등식을 이용해 최적 코딩 길이가 엔트로피와 얼마나 근접하는지를 증명한다. 네 번째 섹션에서는 알고리즘적 접근, 즉 콜모고로프 복잡도 K(x)를 정의한다. 베리 역설을 출발점으로 삼아, “가장 짧은 프로그램”이라는 개념을 통해 정보량을 측정한다. 불변성 정리는 보편적 튜링 기계 선택에 관계없이 K(x)는 상수 차이만을 가진다는 핵심 결과를 제공한다. 또한, K는 무한히 커질 수 있지만 계산적으로는 결정 불가능함을 증명하고, 이와 관련된 괴델 불완전성 정리와의 연관성을 논의한다. 다음 장에서는 K를 이용한 무작위성 정의를 전개한다. 유한 문자열의 경우, 압축 불가능성(즉, K(x)≈|x|)을 무작위성의 기준으로 삼으며, 마틴‑로프의 무작위성 테스트와 체계적 확률론을 연결한다. 무한 객체에 대해서는 마틴‑로프의 위상적 접근과 하향식 접근을 비교하고, 밀러‑유 정리와 ∅′를 이용해 고차원 무작위성 개념을 확장한다. 다섯 번째 장에서는 콜모고로프 복잡도를 실제 데이터 분석에 적용하는 방법을 소개한다. 정규화 정보 거리(NID)는 두 객체의 복잡도 차이를 정규화한 형태이며, 실제 압축 프로그램을 이용해 근사값을 구한다(NCD). 구글 거리(NGD)는 웹 페이지 검색 결과 수를 이용한 정규화 거리로, 의미론적 유사성을 측정한다. 논문은 각각의 거리 함수가 텍스트, 이미지, 유전자 서열 등 다양한 도메인에서 클러스터링과 분류에 어떻게 활용되는지를 실험 결과와 함께 제시한다. 전체적으로 본 논문은 정보량 정의의 역사적 흐름을 조합론·확률론·알고리즘론이라는 세 축으로 정리하고, 콜모고로프 복잡도가 무작위성 이론과 현대 데이터 과학 양쪽에 미치는 영향을 포괄적으로 조명한다.

정보량과 무작위성: 콜모고로프 복잡성의 전면 탐구

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기