DNA 비밀 통신 모델
본 논문은 박테리오파지 T4의 유전체 서열을 이용해 영문 텍스트를 복원하는 암호화 방식을 제안한다. 염기 서열을 0‑8의 숫자 그룹으로 변환하고, 이 그룹을 영문 알파벳 21자와 매핑해 ‘가능한 단어’ 탐색과 재구성을 통해 원문을 추출한다. 통계적 중복성, 샤논의 통신 이론 등을 적용했으며, 3,183개의 염기 회전(턴)에서 약 300개의 영어 단어를 발견한다.
저자: O. Okunoye Babatunde
이 논문은 ‘DNA를 이용한 비밀 통신’이라는 독특한 주제를 다루며, 구체적으로 박테리오파지 T4의 유전체 서열을 암호화된 메시지의 매개체로 활용한다. 서론에서는 암호학의 역사와 DNA가 생물학적 코드라는 점을 연결하고, 샤논의 통신 이론을 빌려 DNA가 ‘암호 체계’를 구성할 수 있음을 제시한다.
연구 방법은 크게 네 단계로 구성된다. 첫 번째 단계는 T4 유전체를 10 bp씩 한 바퀴(턴)로 나누어 총 3 183번의 턴을 확보하는 것이다. 두 번째 단계에서는 각 염기(A, T, G, C)를 0‑3의 정수로 치환하고, 같은 턴 내에서 나타난 숫자들의 빈도를 0‑8 사이의 정수로 정규화한다. 이렇게 하면 각 턴은 ‘숫자 그룹’이라는 고유한 패턴을 갖게 된다. 저자는 전체 서열에서 21개의 서로 다른 숫자 그룹을 발견했으며, 이들을 표 1a에 정리한다(예: 0055, 0028, 0118 등).
세 번째 단계는 이 21개의 숫자 그룹을 영문 알파벳 21자와 일대일 대응시키는 치환표를 만드는 것이다. 선택된 알파벳은 J, K, P, F, G, Y, B, W, M, U, L, D, R, O, S, N, T, H, I, A, E이며, 이는 영어 텍스트에서 빈도‑확률이 비슷한 문자들을 매칭한 결과이다. 저자는 샤논이 제시한 ‘중복성(Redundancy)’ 개념을 활용해, 빈도가 높은 문자와 낮은 문자를 구분하고, 각 알파벳의 출현 확률을 표 1b에 제시한다.
네 번째 단계는 실제 암호 해독이다. 저자는 영문 소설 ‘Wuthering Heights’의 5장을 3 183글자 분량으로 선택해, 해당 텍스트의 알파벳 빈도와 DNA‑암호문에 매핑된 알파벳 빈도를 비교한다. ‘가능한 단어(probable words)’ 방법을 적용해, 사전에 자주 등장하는 단어와 구절을 탐색한다. 이 과정에서 ‘HO A SEAL’, ‘I READ’, ‘HE IS A WOE’ 등 의미 있는 구문을 추출했으며, 전체 약 300개의 영어 단어를 발견했다.
하지만 DNA‑암호문은 문자 순서가 뒤섞여 있어, 원문을 완전하게 복원하려면 ‘재구성(reconstruction)’ 단계가 필요했다. 재구성은 동일한 확률을 가진 문자쌍(H와 I) 사이의 위치 교환, 누락된 문자 삽입, 그리고 문맥에 맞는 단어 조합을 통해 이루어졌다. 표 3a와 3b에 재구성 전후의 단어와 구절이 제시되어 있다.
논의 부분에서는 몇 가지 한계와 향후 과제를 제시한다. 첫째, 숫자‑문자 매핑이 임의적이며, 다른 매핑을 선택하면 전혀 다른 결과가 나올 수 있다. 둘째, 0‑8 범위로 제한한 이유가 통계적 편의성일 뿐, 실제 DNA 서열의 복잡성을 충분히 반영하지 못한다. 셋째, 영어 외 다른 언어에 적용했을 때 동일한 21개 그룹이 존재한다는 증명이 부족하다. 넷째, 현재 해독 과정이 인간의 직관에 크게 의존해 자동화가 어렵다.
결론적으로, 이 연구는 DNA를 정보 매체로 활용하려는 초기 시도로서, 통계적 암호 해독과 생물학적 데이터의 교차 분야에 새로운 관점을 제공한다. 향후 연구에서는 보다 엄밀한 수학적 모델링, 머신러닝 기반 패턴 인식, 그리고 다양한 언어와 유전체에 대한 일반화 검증이 필요하다. 이러한 발전이 이루어진다면, DNA 기반 비밀 통신은 군사·보안·생명공학 분야에서 혁신적인 응용 가능성을 열어줄 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기