NLP

'NLP' 태그의 모든 글

총 19개의 글
시간순 정렬
무작위 짧은 청크로 긴 법률 문서 분류

무작위 짧은 청크로 긴 법률 문서 분류

이 논문은 법률 문서와 같이 텍스트 길이가 수천 토큰에 달하는 도메인에서 Transformer 모델의 입력 제한을 우회하기 위한 실용적인 접근법을 제시한다. 기존 연구들은 보통 전체 문서를 슬라이딩 윈도우 방식으로 나누거나, 핵심 문장을 추출하는 전처리 단계에 의존한다. 그러나 슬라이딩 윈도우는 연산량이 급증하고, 핵심 문장 추출은 도메인 특화된 요약 모델이 필요해 추가 비용이 발생한다. 저자들은 이러한 문제를 “무작위 청크 샘플링”이라는 간단하지만 효과적인 전략으로 해결한다. 48개의 청크를 무작위로 선택함으로써 문서 전체의 다양

Computer Science NLP
No Image

인도어 문자와 엔트로피: 텔루구어 분석

이 논문은 인도어 문자와 그에 따른 철자법을 바탕으로 텔루구어의 엔트로피를 분석하는 데 초점을 맞추고 있다. 먼저, 인도 문자의 기원과 발전 과정을 살펴보면, 브라미 문자는 3천년 전 인더스 문자에서 진화한 것으로 알려져 있으며, 이후 다양한 인도 현대 문자로 분화되었다. 이들 문자는 구조적으로 밀접하게 연관되어 있지만, 모양은 다양하다. 인도어 알파벳은 자음, 모음 및 기타 기호로 구성되며, 한 음절(akshara)은 0개에서 3개의 자음과 모음 또는 기타 기호로 이루어진다. 각 akshara는 독립적으로 발음될 수 있으며, 모든

Computer Science NLP
LLM으로 라벨링된 룩셈부르크어 NER 품질 평가

LLM으로 라벨링된 룩셈부르크어 NER 품질 평가

judgeWEL 논문은 저자원 언어인 룩셈부르크어에 대한 NER 데이터 구축이라는 실질적인 문제에 대해 창의적인 해결책을 제시한다. 가장 큰 강점은 두 가지 측면에서 약한 감독을 활용한다는 점이다. 첫째, 위키피디아 내부 링크와 위키데이터의 구조화된 메타데이터를 연결함으로써 엔터티 유형을 자동으로 추론한다는 아이디어는 기존의 규칙 기반 혹은 사전 매핑 방식보다 확장성이 뛰어나다. 위키피디아는 지속적으로 업데이트되며 다양한 도메인을 포괄하므로, 이 접근법은 새로운 엔터티가 등장해도 비교적 쉽게 반영될 수 있다. 둘째, 자동 라벨링 단

Computer Science NLP Data
AdaGReS 토큰 예산을 고려한 중복 인식 적응형 컨텍스트 선택

AdaGReS 토큰 예산을 고려한 중복 인식 적응형 컨텍스트 선택

AdaGReS 논문은 현재 RAG 시스템이 직면한 두 가지 핵심 문제—토큰 예산의 제한과 컨텍스트 중복—를 동시에 해결하려는 시도로 눈에 띈다. 전통적인 top‑k 검색은 단순히 점수 순으로 청크를 선택하기 때문에, 의미적으로 거의 동일한 문장이 여러 번 포함될 경우 불필요한 토큰을 소모한다. 이는 특히 제한된 컨텍스트 길이를 갖는 대형 언어 모델(Large Language Model, LLM)에서 심각한 성능 저하 요인으로 작용한다. AdaGReS는 이를 극복하기 위해 “관련도‑중복 복합 목표 함수”를 정의한다. 목표 함수는 (1

Computer Science NLP
No Image

LLM은 스스로의 한계를 알까

이 논문은 “메타‑인지”라는 관점에서 LLM의 자기 평가 능력을 체계적으로 검증한다는 점에서 의미가 크다. 먼저 연구진은 “성공 예측”이라는 이진 판단을 통해 모델이 자신의 한계를 얼마나 정확히 인식하는지를 측정하였다. 여기서 사용된 평가지표는 단순 정확도뿐 아니라 ROC‑AUC와 같은 구별력 지표이며, 이는 모델이 과신(over‑confidence)과 과소신(under‑confidence) 사이에서 어느 정도 균형을 잡는지를 보여준다. 결과는 대부분의 최신 LLM이 높은 확신을 보이지만, 무작위보다 높은 AUC를 기록한다는 점이다

Computer Science NLP Model
R Debater 검색 기반 논쟁 생성과 논증 메모리 활용

R Debater 검색 기반 논쟁 생성과 논증 메모리 활용

R‑Debater는 “논증 메모리”라는 개념을 토론 생성에 적용함으로써 기존 LLM 기반 토론 시스템이 갖는 몇 가지 근본적인 한계를 극복한다. 첫째, 일반적인 LLM은 대규모 사전학습을 통해 풍부한 언어 능력을 보유하지만, 특정 주장이나 증거를 일관되게 인용하는 능력은 제한적이다. 이는 특히 다중 턴 토론에서 ‘입장 일관성’과 ‘증거 기반 주장’이 요구될 때, 모델이 앞선 발언을 망각하거나 부정확한 정보를 삽입하는 오류를 초래한다. R‑Debater는 별도의 토론 지식베이스를 구축해 사례‑형 증거와 과거 토론 전개를 인덱싱하고,

Computer Science NLP
No Image

하이퍼그래프 기반 메모리를 활용한 다단계 RAG의 장기 컨텍스트 복합 관계 모델링 향상

본 논문은 다단계 RAG 시스템에서 메모리의 역할을 근본적으로 재정의한다는 점에서 학술적·실용적 의의가 크다. 기존 연구들은 메모리를 “수동적 저장소”로 간주하고, 검색된 텍스트 조각들을 단순히 압축하거나 순차적으로 연결하는 방식에 머물렀다. 이러한 접근은 개별 사실을 나열하는 수준에 그치며, 사실 간의 복합적 관계—예를 들어, 인과관계, 공통 원인, 상호 보완적 증거 등—를 포착하지 못한다. 결과적으로 장기 문맥에서 여러 단계에 걸친 추론이 단절되고, 전역적 의미망을 형성하는 데 한계가 발생한다. HGMEM은 이러한 문제를 해결하

Computer Science NLP Model
디지털 시대의 언어 지도: 전자 사전이 열어가는 새로운 가능성

디지털 시대의 언어 지도: 전자 사전이 열어가는 새로운 가능성

본 논문은 전자 사전의 본질과 그 중요성을 다각도로 분석하며, 디지털 시대에서 언어 자료 표현 방식에 대한 새로운 관점을 제시한다. 주요 내용을 세 가지 큰 범주로 나누어 살펴보면 다음과 같다. 1. 전자 사전의 본질과 의미 재해석 전자 사전은 단순히 종이 사전의 디지털 변형체가 아니라, 새로운 의미와 기능을 지닌 독특한 언어 자료로 정의된다. 이는 '종이 전자' 이분법에서 벗어나 텍스트와 매체를 분리하지 않는 본질적인 관점을 제시한다. 전자 사전은 디지털 환경에서 의미 생성 메커니즘을 통해 세분화된 의미를 제공하며, 이를 통해 독

NLP Computer Science
다차원 프롬프트 체이닝을 통한 소형 언어 모델의 오픈‑도메인 대화 품질 향상

다차원 프롬프트 체이닝을 통한 소형 언어 모델의 오픈‑도메인 대화 품질 향상

본 논문은 최근 대형 언어 모델(LLM)이 대화 시스템에서 보여주는 뛰어난 성능과는 달리, 소형 언어 모델(SLM)이 갖는 배포·운영상의 장점을 살리면서도 품질 격차를 메우기 위한 실용적인 접근법을 제시한다. 핵심 아이디어는 ‘프롬프트 체이닝(prompt chaining)’이라는 기법을 다차원적으로 확장하여, 각각의 대화 품질 요소인 자연스러움(Naturalness), 일관성(Coherence), 흥미성(Engagingness)을 독립적으로 강화하고, 최종 응답에서 이들을 조화롭게 결합하도록 설계한 것이다. 1. 프레임워크 설계 N

Computer Science NLP
다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

Defensive M2S는 기존 가드레일 모델이 전체 대화 히스토리를 입력으로 받아야 하는 구조적 한계를 근본적으로 해결한다는 점에서 의미가 크다. 다중턴 대화는 일반적으로 토큰 수가 O(n²) 수준으로 급증하는데, 이는 특히 10턴 이상으로 길어지는 실제 서비스 시나리오에서 GPU 메모리와 연산 시간의 병목을 초래한다. 논문은 이를 ‘Multi‑turn to Single‑turn (M2S)’ 압축이라는 간단하지만 효과적인 변환 규칙으로 전환한다. 구체적으로, 각 턴의 핵심 발화만을 남기고, 대화 흐름을 유지하기 위해 하이픈(–),

Computer Science NLP Model
대형 언어 모델 사실 생성의 강인한 불확실성 정량화

대형 언어 모델 사실 생성의 강인한 불확실성 정량화

이 논문은 LLM의 ‘환각’ 문제를 불확실성 정량화라는 관점에서 접근한다는 점에서 의미가 크다. 기존의 불확실성 추정 기법—예를 들어 베이지안 신경망, MC‑Dropout, 엔삼블 방법—은 주로 정형화된 QA 데이터셋에서 검증되었으며, 질문이 의도적으로 혼동을 주는 형태일 때는 신뢰도 점수가 급격히 왜곡되는 한계를 보였다. 저자들은 이러한 한계를 극복하기 위해 ‘함정 질문(trap question)’이라는 새로운 평가 도구를 설계했는데, 여기에는 실제 존재하지 않는 인물명이나 허위 사실이 삽입되어 모델이 사실을 생성하도록 유도한다.

Computer Science NLP Model
양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

본 논문은 양자화가 대형 언어 모델(Large Language Model, LLM)의 자기설명(self‑explanations, SE) 능력에 미치는 영향을 체계적으로 조사한 최초의 연구라 할 수 있다. 기존 연구에서는 양자화가 모델의 추론 속도와 메모리 사용량을 크게 개선한다는 점에 초점을 맞추었지만, SE와 같이 모델 내부의 추론 과정을 외부에 설명하도록 요구되는 고차원 작업에 대한 영향은 간과되어 왔다. 이 점을 메우기 위해 저자들은 두 가지 SE 유형, 즉 자연어 설명(NLE)과 반사실 예시(counterfactual exa

Computer Science NLP Model
No Image

언어는 수학적 구조인가 의미장 이론과 언어게임의 대립

이 논문은 최근 대형 언어 모델(Large Language Models, LLM)의 급격한 성능 향상이 의미론 연구에 미치는 함의를 두 축으로 나누어 고찰한다. 첫 번째 축은 루트비히 비트겐슈타인의 후기 철학에 기반한 사회구성주의적 ‘언어게임’ 접근이다. 여기서는 의미가 화자 간의 관습적 상호작용과 사용 상황에 의해 형성된다고 보며, 어떠한 형식적 규칙도 의미를 완전히 설명할 수 없다고 주장한다. 두 번째 축은 저자가 제안한 ‘의미장 이론(Semantic Field Theory)’으로, 언어를 연속적인 의미 공간 안에서 서로 얽힌

Computer Science NLP
생각 흐름으로 보는 언어 모델링

생각 흐름으로 보는 언어 모델링

이 논문은 현재 가장 널리 사용되는 트랜스포머 기반 언어 모델이 “표면적” 토큰 연관성에 과도하게 의존한다는 근본적인 한계를 짚고 있다. 토큰 수준에서만 학습이 이루어지면 모델은 문맥 전체에 걸친 일관된 엔티티·사건 표현을 구축하지 못한다. 결과적으로 “역전 저주”(예: “아버지가 아들을 낳았다”와 “아들이 아버지를 낳았다”를 구분하지 못함)와 같은 관계 일반화 오류가 발생하고, 동일한 의미를 가진 다양한 표현을 학습하기 위해 불필요하게 많은 데이터가 요구된다. 인지과학 연구에서는 인간이 언어를 처리할 때 입력 스트림을 일시적인 표

Computer Science NLP Model
No Image

테스트 시 인지 행동 이해와 조절

본 논문은 현재 LLM이 복잡한 문제 해결에 흔히 사용하는 CoT(Chain‑of‑Thought) 방식이 “과다 토큰 생성”과 “불안정한 사고 흐름”이라는 두 가지 주요 병목을 안고 있다는 점을 정확히 짚어낸다. 저자들은 먼저 대규모 모델(예: GPT‑NeoX, LLaMA)에서 추론 시 생성되는 토큰 시퀀스를 단계별로 분석하고, 각 단계가 어떤 인지적 역할을 수행하는지 메타데이터화한다. 이 과정에서 특히 ‘검증(verification)’ 단계와 ‘역추적(backtracking)’ 단계가 별도의 어텐션 헤드에 집중되어 있다는 사실을

Computer Science NLP Model
덜 자원된 언어에서 자동 요약 접근법 비교

덜 자원된 언어에서 자동 요약 접근법 비교

이 논문은 자원이 부족한 언어(LRL, Less‑Resourced Languages)에서 자동 요약 기술의 현황과 한계를 체계적으로 조명한다. 먼저, 대형 언어 모델(LLM)의 제로샷 프롬프트 방식을 다양한 모델 크기(예: GPT‑3.5, LLaMA‑7B 등)와 함께 실험했는데, 파라미터 수가 비슷하더라도 사전 학습 데이터의 언어 다양성, 토크나이저 설계, 그리고 프롬프트 엔지니어링 차이에 따라 성능 편차가 크게 나타났다. 이는 LLM이 고자원 언어에 최적화된 구조를 가지고 있어, LRL에 대한 일반화 능력이 제한적임을 시사한다.

Computer Science NLP
잠재 계획을 활용한 대형 언어 모델 추론

잠재 계획을 활용한 대형 언어 모델 추론

iCLP는 기존 “체인‑오브‑생각”(CoT) 접근법의 두 가지 한계를 동시에 해결하려는 시도이다. 첫 번째는 인간이 문제를 풀 때 텍스트로 명시적인 계획을 세우지 않더라도, 과거 경험에서 추출된 압축된 패턴을 무의식적으로 활용한다는 점이다. 이러한 암묵적 인지는 LLM이 직접 텍스트 계획을 생성할 때 발생하는 “환각”(hallucination) 문제를 회피할 수 있는 가능성을 제공한다. 두 번째는 다양한 도메인과 질문 형태에 대해 일관된 텍스트 계획을 설계하는 것이 비현실적이라는 점이다. iCLP는 명시적 계획을 먼저 수집하고, 이

Computer Science NLP Model

< 분야별 논문 현황 (Total: 770) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
10

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키