문자열에서 런의 지수 합에 대한 새로운 상한과 하한

본 논문은 길이 n 인 문자열에서 모든 런(run)의 지수 합 σ(n)에 대한 새로운 상한과 하한을 제시한다. 상한은 4.1 n 으로 기존 5.6 n 보다 개선되었으며, 하한은 2.035 n 으로 기존 가설인 σ(n) < 2 n 을 반증한다. 또한 cubic run에 대해서는 σ_cubic(n) < 2.5 n 의 상한을 얻는다.

저자: Maxime Crochemore, Marcin Kubica, Jakub Radoszewski

본 논문은 문자열 이론에서 핵심적인 개념인 “런(run)”에 대한 정량적 분석을 수행한다. 런은 문자열 내에서 2p ≤ |v| 를 만족하는 최소 주기 p 를 갖는 최대 반복 구간이며, 그 지수는 |v|/p 로 정의된다. 기존 연구에서는 런의 개수 ρ(n) 가 O(n) 임을 증명하고, ρ(n) ≤ 1.029 n 정도까지 상한을 끌어올렸지만, 런들의 지수 합 σ(n) 에 대해서는 명확한 상수값이 제시되지 않았다. Kolpakov와 Kucherov(1999)는 σ(n) < 2 n 라는 추측을 제시했지만, 증명되지 않은 상태였다. 논문은 먼저 “핸들(handle)”이라는 새로운 도구를 도입한다. 각 런 v에 대해 그 주기 p 의 길이 p 부분 문자열 w를 고려하고, w의 모든 순환 변형 중 사전식 최소와 최대인 w_min, w_max 를 구한다. 정의에 따라 두 경우가 존재한다. (a) w_min = w_max 인 경우, 즉 w가 모든 순환 변형에서 동일하면 H(v) 는 v 내부의 모든 문자 사이 위치를 포함한다. (b) w_min ≠ w_max 인 경우, H(v) 는 w_min와 w_max 가 각각 연속적으로 나타나는 구간 사이의 경계 위치만을 포함한다. 중요한 점은 서로 다른 런 v₁, v₂ 에 대해 H(v₁) ∩ H(v₂) = ∅ 라는 불교집합성이다. 다음으로 런의 종류를 단주기 런(R₁)과 다주기 런(R≥2)으로 구분한다. Lemma 1에 따르면, 단주기 런에 대해서는 σ(v) = |H(v)| + 1 이며, 다주기 런에 대해서는 ⎡σ(v)⎤ ≤ |H(v)|/2 + 3 이 성립한다. 이 관계를 모든 런에 대해 합산하면 ∑_{v∈R(u)}σ(v) ≤ ∑_{v∈R₁(u)}(|H(v)|+1) + ∑_{v∈R≥2(u)}(|H(v)|/2+3) = |R₁(u)| + 3·|R≥2(u)| + |H_total| + |H_total|/2 = 3·|R(u)| + |H_total| + |H_total|/2 여기서 |H_total| = ∑_{v∈R(u)}|H(v)| 이다. 핸들의 불교집합성으로 인해 |H_total| < n 이며, 따라서 |H_total| + |H_total|/2 < n 이다. 이를 ρ(n) ≤ 1.029 n 와 결합하면 σ(n) < 3·1.029 n + n ≈ 4.1 n 라는 새로운 상한을 얻는다. 이는 이전에 알려진 5.6 n 보다 크게 개선된 결과이다. cubic run(지수가 3 이상인 런) 에 대해서도 동일한 논리를 적용한다. 기존 연구에서 ρ_cubic(n) ≤ 0.5 n 가 알려져 있으므로, σ_cubic(n) < 3·0.5 n + n = 2.5 n 라는 상한을 바로 도출한다. 하한 측면에서는 두 개의 모프함수 φ와 ψ를 정의한다. φ는 알파벳 {a,b,c} 위에서 a→baaba, b→ca, c→bc 로 정의되고, ψ는 a→01011, b→01001, c→01011 로 정의된다. w_i = ψ(φ^i(a)) 로 생성되는 무한히 많은 이진 문자열을 고려한다. 실험적으로 w_i 의 길이와 σ(w_i) 를 계산한 결과, σ(w_i)/|w_i| 은 2.035 를 초과한다. 즉, σ(n) ≥ 2.035 n 을 만족하는 무한히 많은 n 이 존재한다. 이는 Kolpakov·Kucherov의 “σ(n) < 2 n” 추측을 반증한다. 논문은 또한 기존의 ρ(n) 하한을 제공한 Franek·Yang, Simpson 등의 결과와 비교한다. 이들 문자열은 런의 개수는 많지만 지수 합은 2 n 이하에 머물러 있었다. 반면 본 논문의 구성은 지수 합을 크게 만들면서도 런의 개수를 제한하는 새로운 구조를 보여준다. 결론적으로, 본 연구는 (1) 런의 지수 합에 대한 상한을 4.1 n 으로 크게 개선하고, (2) 2 n 이하라는 기존 가설을 깨는 2.035 n 의 하한을 제시함으로써 이론적 한계를 재정의하였다. 또한 cubic run에 대한 2.5 n 상한을 제공함으로써 다양한 알고리즘적 응용(예: 최대 반복 탐색, 압축)에서 보다 정확한 복잡도 분석이 가능하도록 기여한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기