자기상관 메트릭을 이용한 이진 문자열 정보량 평가

** 이 논문은 “자기‑상관 메트릭”이라는 새로운 접근법을 통해 이진 문자열, 즉 컴퓨터 파일들의 정보량을 정량적으로 평가하고, 파일의 압축 여부나 무작위성을 자동으로 구분하는 방법을 제시한다. 전통적인 정보 이론에서는 샤논 엔트로피 H = −∑p_i log₂p_i 를 사용해 메시지의 평균 정보량을 정의한다. 그러나 이 식은 사전 정의된 알파벳(코드북)과 각 기호의 확률 분포 p_i 가 알려져 있어야만 의미가 있다. 실제 파일 시스템에서는 코드북이 명시적으로 존재하지 않으며, 파일이 압축되었는지, 혹은 완전한 무작위 데이터인지 판단하기 어렵다. 기존 연구들은 Kolmogorov 복잡도, 알고리즘적 복잡도 등을 이용해 이 문제를 다루었지만, 이들 역시 암묵적으로 코드북을 가정한다는 비판을 받아왔다. 저자는 “관측 가능한 통계량”을 직접 설계함으로써 이러한 한계를 극복하고자 한다. 핵심 가정은 비랜덤(구조가 있는) 문자열은 자체 상관성을 가지고 있다는 점이다. 즉, 문자열 내에서 일정 간격을 두고 같은 비트가 반복될 확률이 무작위 경우보다 높다. 이를 정량화하기 위해 먼저 C_R(n)이라는 상관 메트릭을 정의한다. C_R(n)은 문자열 B의 i번째 비트와 i + n번째 비트를 XOR 연산한 결과를 모두 합산한 값이다. n은 0부터 M(문자열 길이)까지 변화시키며, C_R(n)의 범위는 0~M이다. 전부 0 혹은 전부 1인 문자열에서는 모든 XOR 결과가 0이므로 C_R(n)=M이 된다. 이 C_R(n)으로부터 두 개의 파생 메트릭을 만든다. 첫 번째는 MF(n) = M − 2·C_R(n)이며, 전체 문자열에 대해 n을 0~M까지 합산해 MF_total을 구한다(식 3). MF는 C_R가 클수록(즉, 상관성이 강할수록) 작아지며, 완전한 동질 문자열에서는 0이 된다. 두 번째 메트릭인 DF는 MF와 M의 차이를 제곱해 평균을 구한 형태(식 4)로, 문자열의 변동성을 측정한다. 실험 설계는 다음과 같다. 세 종류의 파일을 수집해 총 1 800여 개의 샘플을 만든다. 1) **그룹 1** – 비압축 일반 파일(엑셀, 워드, 텍스트, 실행 파일 등) 112개, 크기 13 byte~4.3 Mbyte. 2) **그룹 2** – 동일 파일을 BZIP2·GZIP으로 압축한 버전 1 867개, 크기 30 byte~2.3 Mbyte. 3) **그룹 3** – /dev/random에서 추출한 순수 무작위 데이터 1 334개, 크기 14 byte~4.5 Mbyte. 각 파일에 대해 MF와 DF를 계산하고, 파일 크기 M(비트)와 메트릭 값을 로그 스케일 그래프로 플롯했다. **주요 결과** - **MF 메트릭**: 작은 파일(수십 KB 이하)에서는 세 그룹이 겹쳐 구분이 어려웠다. 그러나 파일 크기가 10 Mbit(≈1.25 Mbyte) 이상이면 MF 값이 명확히 구분된다. 비압축 파일은 MF≈M²에 근접하고, 압축 파일은 MF≈M^{3/2}, 무작위 파일은 MF≈M 형태의 비선형 관계를 보였다. 이는 비압축 파일이 가장 높은 자기‑상관성을 가지고, 압축 파일은 중간, 무작위 파일은 거의 상관성이 없음을 의미한다. - **조정된 MF(Adj.MF)**: MF를 M²에 대해 정규화한 Adj.MF는 동일한 구분 효과를 유지하면서 값이 “스펙트럼” 형태로 분산돼 시각적으로 구분이 더 쉬워졌다. - **DF 메트릭**: 그룹 1은 DF≈M/100 정도로 작게 유지되는 반면, 그룹 2·3은 거의 상수(≈1) 수준이었다. 이는 비압축 파일에 자체 포함된 구조적 정보(자기‑컨테인드 정보)가 많아 상관성이 강함을 나타낸다. 압축 파일은 압축 과정에서 메타데이터가 삽입되지만 대부분은 무작위와 유사한 패턴을 보인다. 결론적으로, 자기‑상관 기반 메트릭은 파일의 정보량을 정량화하고, 파일이 압축되었는지 혹은 무작위인지 판단하는 데 충분한 결정성을 제공한다. 특히 파일이 충분히 클 경우(>10 Mbit) 단순 XOR‑연산만으로도 99 % 이상의 정확도로 구분이 가능하다. **논문의 의의와 향후 과제** - **의의**: 기존의 복잡도 이론이나 엔트로피 기반 방법이 코드북 의존성을 피하기 어려웠던 점을, 직접 설계한 통계량으로 해결했다. 계산 비용이 매우 낮아(한 번의 XOR와 합산) 대규모 파일 분석에 실용적이다. - **제한점**: 작은 파일에서는 구분력이 떨어진다. 또한 현재 메트릭은 단일 시프트 n에만 의존하므로, 복잡한 패턴(예: 주기적 구조, 비선형 종속성)을 포착하지 못한다. - **향후 연구**: 다중 시프트 조합, 비선형 연산(AND, OR), 혹은 머신러닝 기반 특징 추출과 결합해 작은 파일에서도 높은 구분력을 확보할 수 있다. 또한 압축 알고리즘별 특성을 반영한 맞춤형 메트릭을 개발하면 압축률 예측 등 부가적인 응용이 가능할 것이다. **

자기상관 메트릭을 이용한 이진 문자열 정보량 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기