함수어 인접망을 활용한 저자식별 기법
함수어만을 노드로 하는 방향성 인접망(WAN)을 구축하고, 이를 확률 전이 행렬로 정규화해 마코프 체인으로 해석한다. 저자별 WAN의 상대 엔트로피를 거리 척도로 사용해 미지 텍스트를 가장 가까운 저자 프로필에 매핑한다. 파라미터 α·D와 함수어 집합을 최적화한 결과, 전통적인 단어 빈도 기반 방법보다 높은 정확도를 보였으며, 빈도 기반 기법과 결합하면 정확도가 더욱 향상된다.
저자: Santiago Segarra, Mark Eisen, Alej
**1. 연구 배경 및 목적**
저자식별은 문헌학, 법의학, 표절 탐지 등 다양한 분야에서 중요한 과제로, 전통적으로 단어 길이, 문장 길이, 어휘 다양성 등 통계적 특성을 이용해 왔다. 특히 1990년대 이후 함수어(Function Word)의 빈도 분석이 저자 고유의 스타일을 포착하는 데 유효함이 밝혀졌지만, 대부분은 단순 빈도 벡터에 의존했다. 본 논문은 함수어 간의 순서적·공변 관계를 그래프 형태로 모델링한 ‘함수어 인접망(Word Adjacency Network, WAN)’을 제안하고, 이를 마코프 체인으로 해석해 상대 엔트로피 기반 거리 측정으로 저자를 구분한다.
**2. 문제 정의**
저자 집합 A={a₁,…,a_n}, 알려진 텍스트 집합 T, 미지 텍스트 집합 U가 주어질 때, 각 텍스트를 저자에 매핑하는 함수를 학습한다. 텍스트는 문장 단위로 분할하고, 각 문장에서 함수어만을 추출한다.
**3. WAN 구축 방법**
- **함수어 집합 F**: 전체 코퍼스 혹은 각 저자별 텍스트에서 가장 빈번히 등장하는 함수어를 선택한다. 실험에서는 30~50개의 함수어가 주로 사용된다.
- **근접도 정의**: 문장 내에서 함수어 f_i와 f_j 사이의 위치 차 d가 1≤d≤D일 때, 감쇠 계수 α를 적용해 가중치 α^{d‑1}를 부여한다. 이는 두 단어가 가까울수록 큰 영향을 주도록 설계된 것이다.
- **유사도 행렬 Q_t**: 모든 문장에 대해 위 근접도를 합산해 Q_t(f_i,f_j) = Σ_{occurrences of f_i} Σ_{d=1}^{D} α^{d‑1}·I{f_j appears d positions after f_i} 로 계산한다.
- **정규화**: 각 행을 그 합으로 나누어 ˆQ_t(f_i,f_j)=Q_t(f_i,f_j)/Σ_k Q_t(f_i,k) 로 변환한다. 이렇게 하면 각 행이 확률 분포가 되며, 마코프 체인 전이 행렬 P_t와 동일한 의미를 갖는다.
**4. 저자 프로필 생성**
저자 a_c에 대해 모든 알려진 텍스트 t∈T(c)의 Q_t를 평균하고 동일한 정규화를 적용해 ˆQ_c를 만든다. 결과 행렬 ˆQ_c는 저자별 전이 확률을 나타내는 마코프 체인 P_c이다.
**5. 거리 측정 및 분류**
두 마코프 체인 P₁, P₂ 사이의 상대 엔트로피 H(P₁,P₂)=Σ_{i,j} π_i P₁(i,j) log
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기