LLM의 통계적 서명과 압축 기반 규칙성 탐색

본 논문은 대규모 언어 모델(LLM)이 생성하는 텍스트와 인간이 작성한 텍스트 사이의 구조적 차이를 정량화하기 위해 손실 없는 압축(gzip)을 모델‑불가지론적 지표로 제안한다. 압축 알고리즘은 텍스트 내 반복 패턴과 장거리 의존성을 자동으로 탐지해, 압축 비율 R(x)=C(x)/|x| 을 통해 텍스트의 통계적 규칙성을 측정한다. 연구는 세 단계의 정보 생태계—(i) 제어된 인간‑LLM 연속문, (ii) 위키피디아와 LLM이 재작성한 Grokipedia, (iii) 완전 합성 소셜 플랫폼 Moltbok과 실제 Reddit 포럼—에서 압축 행동을 분석한다. 첫 번째 실험에서는 Human‑AI Parallel English Corpus를 이용해 동일 프롬프트에 대한 인간 연속문과 여섯 종류의 LLM( GPT‑4o, GPT‑4o‑mini, Llama 3.1 8B/70B 및 그 변형) 출력을 비교했다. 길이 매칭을 위해 466~489단어 구간으로 제한했으며, 엔트로피와 압축 비율 사이의 양의 상관관계를 사전 합성 텍스트에서 확인한 뒤, 실제 인간·LLM 텍스트를 동일 평면에 배치했다. 결과는 인간 텍스트가 평균적으로 높은 압축 비율(즉, 낮은 압축성)을 보이며, LLM 텍스트는 더 낮은 압축 비율을 나타냈다. 이는 LLM이 고빈도 토큰과 구문을 반복 사용해 통계적 집중을 일으킨다는 것을 의미한다. 두 번째 실험에서는 9,279개의 위키피디아 페이지와 해당 페이지를 LLM이 재작성·확장한 Grokipedia 항목을 비교했다. 페이지 수준과 문장 수준 모두에서 Grokipedia 텍스트가 인간 위키보다 압축 비율이 낮았다. 특히, 페이지당 평균 길이가 길어질수록 압축 비율 차이가 확대되었으며, 이는 장거리 패턴이 압축기에 더 많이 활용된 결과로 해석된다. 이 결과는 지식 인프라가 LLM에 의해 매개될 때도 동일한 통계적 서명이 유지된다는 점을 시사한다. 세 번째 실험에서는 Reddit(인간 기반)과 Moltbok(LLM 에이전트가 생성한 완전 합성 소셜 대화) 데이터를 각각 10,000개씩, 길이별(중·고)로 층화 샘플링했다. 텍스트 전처리 후 gzip 압축을 적용했으며, 압축 비율 차이는 중·고 길이 구간에서 뚜렷했지만, 짧은 포스트(저길이)에서는 차이가 급격히 감소했다. 이는 압축 비율이 텍스트 길이에 의존하는 스케일 효과를 보여준다. 즉, 충분히 긴 텍스트에서는 LLM이 생성한 고빈도 패턴이 압축기에 포착되어 구분이 가능하지만, 짧은 텍스트에서는 이러한 패턴이 충분히 드러나지 않아 구분력이 약화된다. 논문은 압축 기반 접근법이 기존 감지 모델과 달리 모델 내부 로그 확률, 토큰 순위, 의미 평가 등에 의존하지 않으며, 순수 바이트 스트림만으로도 통계적 차이를 포착한다는 장점을 강조한다. 이는 데이터 접근 제한이나 프라이버시 요구가 있는 상황에서도 적용 가능함을 의미한다. 다만, 압축 비율은 텍스트 길이, 언어 특성, 선택된 압축 알고리즘 등에 민감하므로, 비교 대상 간의 사전 정규화와 길이 매칭이 필수적이다. 또한, gzip 외 다른 LZ 기반 변형이나 BWT 기반 압축기를 사용하면 결과가 달라질 수 있다. 결론적으로, 손실 없는 압축은 LLM이 생성한 텍스트의 통계적 규칙성을 정량화하는 간단하고 강력한 도구이며, 인간·기계 텍스트 구분의 구조적 한계를 밝히는 데 기여한다. 향후 연구는 압축 기반 지표와 의미 기반 특성을 결합하거나, 멀티모달 데이터(이미지·음성 포함)로 확장하는 방안을 모색할 수 있다.

LLM의 통계적 서명과 압축 기반 규칙성 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기