함수어 인접망을 활용한 저자식별 기법

**1. 연구 배경 및 목적** 저자식별은 문헌학, 법의학, 표절 탐지 등 다양한 분야에서 중요한 과제로, 전통적으로 단어 길이, 문장 길이, 어휘 다양성 등 통계적 특성을 이용해 왔다. 특히 1990년대 이후 함수어(Function Word)의 빈도 분석이 저자 고유의 스타일을 포착하는 데 유효함이 밝혀졌지만, 대부분은 단순 빈도 벡터에 의존했다. 본 논문은 함수어 간의 순서적·공변 관계를 그래프 형태로 모델링한 ‘함수어 인접망(Word Adjacency Network, WAN)’을 제안하고, 이를 마코프 체인으로 해석해 상대 엔트로피 기반 거리 측정으로 저자를 구분한다. **2. 문제 정의** 저자 집합 A={a₁,…,a_n}, 알려진 텍스트 집합 T, 미지 텍스트 집합 U가 주어질 때, 각 텍스트를 저자에 매핑하는 함수를 학습한다. 텍스트는 문장 단위로 분할하고, 각 문장에서 함수어만을 추출한다. **3. WAN 구축 방법** - **함수어 집합 F**: 전체 코퍼스 혹은 각 저자별 텍스트에서 가장 빈번히 등장하는 함수어를 선택한다. 실험에서는 30~50개의 함수어가 주로 사용된다. - **근접도 정의**: 문장 내에서 함수어 f_i와 f_j 사이의 위치 차 d가 1≤d≤D일 때, 감쇠 계수 α를 적용해 가중치 α^{d‑1}를 부여한다. 이는 두 단어가 가까울수록 큰 영향을 주도록 설계된 것이다. - **유사도 행렬 Q_t**: 모든 문장에 대해 위 근접도를 합산해 Q_t(f_i,f_j) = Σ_{occurrences of f_i} Σ_{d=1}^{D} α^{d‑1}·I{f_j appears d positions after f_i} 로 계산한다. - **정규화**: 각 행을 그 합으로 나누어 ˆQ_t(f_i,f_j)=Q_t(f_i,f_j)/Σ_k Q_t(f_i,k) 로 변환한다. 이렇게 하면 각 행이 확률 분포가 되며, 마코프 체인 전이 행렬 P_t와 동일한 의미를 갖는다. **4. 저자 프로필 생성** 저자 a_c에 대해 모든 알려진 텍스트 t∈T(c)의 Q_t를 평균하고 동일한 정규화를 적용해 ˆQ_c를 만든다. 결과 행렬 ˆQ_c는 저자별 전이 확률을 나타내는 마코프 체인 P_c이다. **5. 거리 측정 및 분류** 두 마코프 체인 P₁, P₂ 사이의 상대 엔트로피 H(P₁,P₂)=Σ_{i,j} π_i P₁(i,j) log

함수어 인접망을 활용한 저자식별 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기