2분기 브랜칭으로 χ≤2r 경계 최적화

본 논문은 문자열의 반복성 측정값 χ(최소 suffixient 집합 크기)와 BWT의 런 수 r 사이의 관계 χ≤2r 를 고정 알파벳 크기 σ>2 에서도 거의 최적에 가깝게 만들 수 있음을 보인다. 2‑branching 성질을 정의하고, order 3에 대해 모든 σ≥2에 대한 명시적 구성 Sσ를 제시해 χ/r = (2σ²+1)/(σ²+4)=2−7/(σ²+4) 를 얻는다. σ=3,4에 대해서는 order 5 인스턴스로 비율을 1.91 이상까지 …

저자: Vinicius Tikara Venturi Date, Le, ro Mir

본 논문은 문자열 압축 및 인덱싱 분야에서 중요한 두 반복성 측정값인 χ(최소 suffixient 집합의 크기)와 r(Burrows–Wheeler Transform의 런 수) 사이의 관계를 심도 있게 탐구한다. 기존 연구(Navarro 등)에서는 χ≤2r 라는 상한을 제시했지만, 고정된 알파벳 크기 σ>2에 대해 이 상한이 실제로 얼마나 근접할 수 있는지는 미해결 문제였다. 저자들은 이를 해결하기 위해 “2‑branching”이라는 새로운 구조적 속성을 도입한다. 정의에 따르면, 순환 문자열이 order k에서 2‑branching이라면, 모든 길이 k−1인 서브스트링이 정확히 두 개의 길이 k 연장을 갖는다. 이 속성은 각 (k−1)-gram이 두 개의 서로 다른 뒤 문자로 확장된다는 의미이며, 이는 de Bruijn 순환 문자열의 일반화로 볼 수 있다. 논문은 먼저 기본 개념과 선행 연구를 정리한다. BWT와 cBWT, 런, 오른쪽 최대화(right‑maximal)와 super‑maximal right‑extensions, suffixient set의 정의 등을 명확히 하고, χ가 바로 super‑maximal right‑extensions 집합의 크기와 동일함을 재확인한다. 이후 2‑branching 문자열이 χ와 r을 어떻게 제어하는지 이론적 기반을 마련한다. 핵심 구성은 order 3에 대한 명시적 문자열 Sσ이다. 알파벳 Σ={0,…,σ−1}에 대해, 각 a∈{0,…,σ−2}는 (a,0),(a,1),…,(a,σ−1) 쌍을 두 번 연속으로 배치하고, 마지막 문자 σ−1은 (σ−1,σ−1)만을 한 번 배치한다. 이렇게 하면 전체 길이는 2σ²가 된다. Lemma 6과 Lemma 7을 통해 모든 2‑gram이 정확히 두 번 등장하고, 연장 집합 R_Sσ(ab)={a,(a+1) mod σ}임을 증명한다. 즉, Sσ는 2‑branching de Bruijn 순환 문자열이며, 모든 3‑gram이 서로 다르다. 이 특성 덕분에 회전 행렬을 3‑gram 프리픽스 기준으로 정렬하면, 각 프리픽스 그룹 내에서 두 개의 3‑gram이 정해진 순서대로 배치된다. 이를 이용해 cBWT의 런 수를 정확히 σ²+2로 계산하고, 일반 BWT(문자열을 선형화하고 $ 로 종료)에서는 추가적인 두 런이 더해져 σ²+4가 된다. χ는 super‑maximal right‑extensions의 개수와 동일하므로 2σ²+1이다. 따라서 \

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기