:
NEL (Never-Ending Language Learner)은 24시간 7일 동안 작동하는 컴퓨터 시스템으로, 웹을 읽고 끊임없이 사실들을 수집하여 자체 지식 기반을 성장시키는 역할을 합니다. NEL의 초기 지식 기반은 다양한 카테고리와 관계를 정의하며, 각각에 대한 예시가 제공됩니다. 본 문서에서는 새로운 언어로 NELL 인스턴스를 설정하는 방법과 온톨로지 매핑 과정을 설명합니다.
💡 논문 핵심 해설 (Deep Analysis)
:
NEL (Never-Ending Language Learner)은 지속적인 학습을 통해 웹에서 정보를 수집하고 분석하는 시스템입니다. 이 시스템의 주요 목표는 끊임없이 새로운 사실을 배우고, 이를 통해 자체 지식 기반을 확장하는 것입니다. NEL은 초기에 정의된 카테고리와 관계를 바탕으로 웹에서 정보를 추출하고 학습합니다.
NEL의 핵심 구성 요소 중 하나는 온톨로지입니다. 이는 시스템이 이해하고 분석해야 하는 주요 개념과 그들 간의 관계를 정의하는 구조적 프레임워크입니다. 예를 들어, “도시"라는 카테고리와 “위치"라는 관계가 포함될 수 있습니다. 이러한 온톨로지는 NEL이 웹에서 정보를 추출하고 분석할 때 사용됩니다.
NEL의 학습 과정은 All-Pairs-Data 생성을 통해 이루어집니다. 이는 텍스트에서 모든 Named Entity (NE)와 Textual Pattern (TP)의 발생과 공발생을 저장하는 프로세스입니다. 카테고리와 관계에 따라 NE와 TP 사이의 발생 횟수를 계산하고, 이를 바탕으로 새로운 지식을 생성합니다.
NEL은 웹에서 정보를 수집하고 학습하기 때문에, 다양한 언어 버전의 NELL 인스턴스를 설정하는 것이 중요합니다. 이는 온톨로지 매핑 과정을 통해 이루어집니다. 영어 온톨로지를 다른 언어로 변환하면서 카테고리와 관계 이름을 적절히 조정하고, 각 카테고리에 대한 예시 데이터를 제공하는 것이 필요합니다.
NEL의 새로운 인스턴스 생성 과정은 포르투갈어 NEL 버전과 프랑스어 버전에서 처음 공개되었습니다. 이 경험을 바탕으로 다양한 언어로 NELL 인스턴스를 설정하고, 이를 통해 다국어화를 추진할 수 있습니다.
NEL의 학습 과정에서는 인간 감독이 중요한 역할을 합니다. 시스템은 매일 학습하며, 잘못된 해석을 거부하기 위해 감독과 교정이 필요합니다. 이는 NELL 학습을 더 정확하고 빠르게 만드는 데 도움이 됩니다.
NEL의 미래 발전 방향 중 하나는 종간(cross-lingual) 측면에 초점을 맞추는 것입니다. 영문 버전의 지식을 다른 언어 버전으로 수출하거나, 반대로 다른 언어 텍스트를 통해 영문 NELL이 특정 지식을 찾을 수 없는 경우 간접적으로 이를 풍부하게 하는 방법을 개발하는 것입니다.
또한, NEL 온톨로지를 다른 지식 기반과 쉽게 매핑할 수 있는 방법을 제공하는 것도 중요합니다. DBPedia와 같은 세분화 웹 기술에 기반한 지식 기반과의 상호작용은 NELL의 학습 과정을 더욱 효과적으로 만들 것입니다.
NEL 시스템은 지속적인 학습과 정보 수집을 통해 끊임없이 발전하고 있습니다. 다양한 언어로 인스턴스를 설정하고, 이를 바탕으로 다국어화를 추진하는 것은 NELL의 미래 발전에 중요한 역할을 할 것입니다.
📄 논문 본문 발췌 (Excerpt)
## NEL(영원한 언어 학습자) 시스템 소개 및 새로운 인스턴스 설정 가이드
NEL (Never-Ending Language Learner) [1]은 24시간 7일 동안 작동하는 컴퓨터 시스템입니다. 2010년 1월 12일에 시작되어 영원히 운영될 예정이며, 웹을 읽고 끊임없이 사실들을 수집하여 자체 지식 기반을 성장시키고 채워나갑니다.
간단히 말해, NEL 시스템은 다음과 같이 설명할 수 있습니다: NEL의 초기 지식 기반(KB)은 수백 개의 카테고리 (운동선수, 스포츠, 스포츠팀, 과일, 제품, 국가, 도시, 감정 등)와 관계 (운동선수가 팀에 소속됨 (athletePlaysForTeam), 도시가 국가에 위치함 (cityLocatedInCountry) 등)를 정의하는 온톨로지입니다. 또한 각 카테고리와 관계마다 10~15개의 예시(인스턴스)가 제공됩니다 (예: 운동선수 (코비 브라이언트), 스포츠팀 (LA 레이커스) 등). NEL에 대한 자세한 설명과 현재 프로젝트를 지원하는 문헌은 [1], [4], [5], [6]에서 확인할 수 있습니다. 시스템 전체에 관한 최신 정보는 [7]에서 찾을 수 있습니다.
NEL의 표준 프로세스는 그림 1에 단순하고 일반적인 관점에서 나타냅니다. 이 그림에서 입력은 모든 쌍 데이터와 온톨로지/지식 기반이며, 출력은 온톨로지/지식 기반입니다. 각 과정 부분을 자세히 살펴보겠습니다.
본 문서는 새로운 NEL 인스턴스를 다른 언어로 설정하는 데 필요한 사항을 설명합니다. 요약하자면, 온톨로지와 입력이 필요하며, 이는 섹션 2, 3, 4에서 상세히 다루어집니다. NEL의 새로운 인스턴스 생성 과정은 포르투갈어 NEL 버전 [3, 2]과 프랑스어 버전에서 처음 공개되었으며, 본 문서는 이러한 출판물과 경험에 기반합니다.
NEL의 입력은 웹입니다. NEL은 웹 페이지에서 읽고 학습하며, 끊임없이 “영원히” 학습합니다. NEL의 핵심은 매일 더 잘 읽고 이해하는 것입니다. 책을 처음 접한 사람이 책을 읽을수록 지식을 얻는 것과 유사하게, NEL은 웹을 여러 번 (회전) 읽는 데 많은 시간과 자원이 필요하지만, 이를 통해 지식을 습득합니다. NEL은 텍스트에서 All-Pairs-Data라는 소스 데이터를 전처리합니다.
All-Pairs-Data는 대규모 코퍼스를 사용하여 Named Entity (NE)와 Textual Pattern (TP)의 모든 발생과 공발생을 저장하는 두 가지 관점에서 생성됩니다: 카테고리 및 관계.
카테고리는 단방향 관계를 학습합니다. 예를 들어, 도시 카테고리는 City(뉴욕)라는 단방향 관계를 가질 수 있습니다. 관계는 이진 관계를 학습합니다. 예를 들어, LocatedIn(뉴욕, 미국) 관계입니다. INPUT-OUTPUT NEL의 All-Pairs-Data에서 온톨로지/KB는 각 프레디케이트 (뉴욕)에 대해 하나의 인스턴스를 추출하며, 관계의 경우 프레디케이트 (뉴욕, 미국)에 대해 한 쌍의 인스턴스를 추출합니다.
All-Pairs-Data는 카테고리와 관계 또는 둘 다를 위해 생성될 수 있습니다. 카테고리의 경우 모든 TP와 NE 사이의 발생을 포함하며, 관계의 경우 두 NE와 TP의 쌍 사이의 발생을 포함합니다.
테이블 1과 2에는 간단한 All-Pairs-Data 예시가 각각 카테고리 (테이블 1)와 관계 (테이블 2)에 대해 제시되어 있습니다. 이 표에서 카테고리의 경우 NE와 TP 사이의 발생 횟수를, 관계의 경우 두 NE 쌍과 TP 사이의 발생 횟수를 확인할 수 있습니다. NEL이 학습할 때, NEL은 수학 연산을 수행하여 공발생을 계산하고 카운트합니다.
NE와 TP 추출은 품사 태깅 과정을 통해 이루어집니다. 다른 접근 방식도 적용 가능하며, 중요한 것은 추출된 NE와 TP가 수정되지 않는 것입니다. 즉, 원본 텍스트에서 정확히 추출하여 일관성을 유지해야 합니다 (더 자세한 NEL 키는 http://www.cs.cmu.edu/
를 참조하세요). 현재 NEL에 적용되는 일부 접근 방식은…
새로운 NELL 인스턴스 생성 및 온톨로지 매핑
All-Pairs for Categories 생성:
특정 개체명(NE: Named Entity)이 발견되면, 양쪽에서 두 개의 TP(Textual Pattern)를 추출합니다. 예를 들어, “미국에 위치한 뉴욕은 매우 유명한 도시"에서 NE는 “뉴욕”, 왼쪽 TP는 “미국에 위치해”, 오른쪽 TP는 “매우 유명하다"가 됩니다. 현재 영어 외에 다른 언어 (대부분의 언어)에서는 23개와 5개의 그램 조합이 저장됩니다. 예를 들어, “도시이다”, “도시 위치”, “근처 도시 위치” 등이 있습니다. 영어의 경우 NE에 대한 더 나은 TP를 찾기 위해 필터가 사용됩니다. 프랑스어와 포르투갈어에서는 관계에 대해 TP가 NE 쌍 사이의 문장입니다. 카테고리의 그램 수는 35개이며, 영어는 최대 5개까지 가능하지만 다른 언어에는 아직 개발되지 않은 고유한 필터가 있습니다.
새로운 NELL 인스턴스 시작:
…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…