Posts

Here are all published articles, sorted by date in descending order.

791 posts total

16 pages total

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

Defensive M2S는 기존 가드레일 모델이 전체 대화 히스토리를 입력으로 받아야 하는 구조적 한계를 근본적으로 해결한다는 점에서 의미가 크다. 다중턴 대화는 일반적으로 토큰 수가 O(n²) 수준으로 급증하는데, 이는 특히 10턴 이상으로 길어지는 실제 서비스 시나리오에서 GPU 메모리와 연산 시간의 병목을 초래한다. 논문은 이를 ‘Multi‑turn to Single‑turn (M2S)’ 압축이라는 간단하지만 효과적인 변환 규칙으로 전환한다. 구체적으로, 각 턴의 핵심 발화만을 남기고, 대화 흐름을 유지하기 위해 하이픈(–),

January 01, 2026

Computer Science NLP Model

Device-Native Autonomous Agents for Privacy-Preserving Negotiations

본 논문은 기존 클라우드‑중심 협상 플랫폼이 갖는 “데이터 중앙집중 → 보안 위협 → 사용자 신뢰 저하”라는 구조적 문제를 근본적으로 재구성한다는 점에서 학술적·산업적 의의를 가진다. 첫 번째로, 디바이스‑네이티브( device‑native ) 아키텍처는 모든 협상 로직과 제약 조건을 사용자의 로컬 환경에 격리함으로써 데이터 탈취 위험을 최소화한다. 이는 특히 GDPR·CCPA 등 데이터 주권 규제가 강화되는 현재 상황에서 법적·규제적 컴플라이언스를 자연스럽게 충족한다는 장점이 있다. 두 번째로, 제로 지식 증명(zero‑knowl

January 01, 2026

Computer Science Cryptography and Security

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

judgeWEL 논문은 저자원 언어인 룩셈부르크어에 대한 NER 데이터 구축이라는 실질적인 문제에 대해 창의적인 해결책을 제시한다. 가장 큰 강점은 두 가지 측면에서 약한 감독을 활용한다는 점이다. 첫째, 위키피디아 내부 링크와 위키데이터의 구조화된 메타데이터를 연결함으로써 엔터티 유형을 자동으로 추론한다는 아이디어는 기존의 규칙 기반 혹은 사전 매핑 방식보다 확장성이 뛰어나다. 위키피디아는 지속적으로 업데이트되며 다양한 도메인을 포괄하므로, 이 접근법은 새로운 엔터티가 등장해도 비교적 쉽게 반영될 수 있다. 둘째, 자동 라벨링 단

January 01, 2026

Computer Science NLP Data

No Image

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems

FlashInfer‑Bench 논문은 “AI‑generated GPU kernel”이라는 최신 연구 흐름을 실제 서비스 환경에 적용하기 위한 인프라스트럭처 설계라는 관점에서 매우 의미 있는 기여를 하고 있다. 첫 번째 핵심은 FlashInfer Trace 라는 메타데이터 스키마이다. 기존에 LLM이 생성한 코드를 단순히 텍스트로 저장하고 인간이 수동으로 검증하는 방식은 확장성이 떨어진다. Trace는 커널 인터페이스(입출력 텐서 형태, 메모리 요구량), 워크로드 특성(배치 크기, 시퀀스 길이), 구현 세부사항(언어, 컴파일 옵션)

January 01, 2026

Computer Science Artificial Intelligence System

No Image

Geometric Regularization in Mixture-of-Experts: The Disconnect Between Weights and Activations

Mixture‑of‑Experts(MoE) 구조는 수백에서 수천 개의 전문가 중 일부만을 선택적으로 활성화함으로써 계산 비용을 크게 절감한다는 장점이 있다. 그러나 전문가들이 실제로 서로 다른 기능을 수행하도록 만들기 위해서는 “전문가 다양성”이 필수적이며, 이를 달성하기 위한 다양한 정규화 기법이 제안되어 왔다. 본 논문에서는 가장 직관적인 접근법 중 하나인 가중치 직교 손실을 적용하여 전문가 간의 기하학적 차이를 강제하고, 그 효과를 다각도로 평가하였다. 첫 번째 실험에서는 가중치 공간 중복도(MSO, Mean Subspace

January 01, 2026

Machine Learning Computer Science

No Image

Language as Mathematical Structure: Examining Semantic Field Theory Against Language Games

이 논문은 최근 대형 언어 모델(Large Language Models, LLM)의 급격한 성능 향상이 의미론 연구에 미치는 함의를 두 축으로 나누어 고찰한다. 첫 번째 축은 루트비히 비트겐슈타인의 후기 철학에 기반한 사회구성주의적 ‘언어게임’ 접근이다. 여기서는 의미가 화자 간의 관습적 상호작용과 사용 상황에 의해 형성된다고 보며, 어떠한 형식적 규칙도 의미를 완전히 설명할 수 없다고 주장한다. 두 번째 축은 저자가 제안한 ‘의미장 이론(Semantic Field Theory)’으로, 언어를 연속적인 의미 공간 안에서 서로 얽힌

January 01, 2026

Computer Science NLP

Robust Uncertainty Quantification for Factual Generation of Large Language Models

이 논문은 LLM의 ‘환각’ 문제를 불확실성 정량화라는 관점에서 접근한다는 점에서 의미가 크다. 기존의 불확실성 추정 기법—예를 들어 베이지안 신경망, MC‑Dropout, 엔삼블 방법—은 주로 정형화된 QA 데이터셋에서 검증되었으며, 질문이 의도적으로 혼동을 주는 형태일 때는 신뢰도 점수가 급격히 왜곡되는 한계를 보였다. 저자들은 이러한 한계를 극복하기 위해 ‘함정 질문(trap question)’이라는 새로운 평가 도구를 설계했는데, 여기에는 실제 존재하지 않는 인물명이나 허위 사실이 삽입되어 모델이 사실을 생성하도록 유도한다.

January 01, 2026

Computer Science NLP Model

No Image

Sparse Probabilistic Coalition Structure Generation: Bayesian Greedy Pursuit and $ell_1$ Relaxations

이 논문은 연합 구조 생성(CSG) 문제에 ‘가치가 관측을 통해 학습돼야 한다’는 새로운 전제를 도입함으로써 기존 연구와 차별화한다. 전통적인 CSG는 모든 가능한 연합에 대한 정확한 가치 함수가 주어졌다고 가정하고, 그 위에서 최적의 연합 분할을 찾는다. 그러나 실제 사회·경제 시스템에서는 개별 연합의 가치를 직접 측정하기 어렵고, 대신 여러 에피소드(예: 협상 라운드, 프로젝트 수행 결과)에서 얻은 총 보상만 관찰된다. 저자들은 이러한 상황을 ‘희소 선형 회귀’ 모델로 정형화한다. 즉, 한 에피소드의 총 보상 Yₜ는 소수(K)개

January 01, 2026

Computer Science Game Theory

VisNet: Efficient Person Re-Identification via Alpha-Divergence Loss, Feature Fusion and Dynamic Multi-Task Learning

VisNet은 현재 사람 재식별 분야에서 가장 큰 과제 중 하나인 “정확도와 연산 효율성 사이의 트레이드오프”를 해결하려는 시도로 눈에 띈다. 첫 번째 핵심 기여는 ResNet‑50의 네 단계(feature map)들을 순차적으로 결합하면서도 별도의 병렬 브랜치를 도입하지 않은 점이다. 이는 기존의 멀티‑스케일 접근법이 흔히 겪는 파라미터 폭증과 메모리 사용량 증가 문제를 크게 완화한다. 자동 주의(attention) 모듈이 각 스케일별 특징에 가중치를 부여함으로써, 저해상도에서 추출된 전역적인 형태 정보와 고해상도에서 얻어지는 세

January 01, 2026

Computer Vision Computer Science Learning

A study on constraint extraction and exception exclusion in care worker scheduling

이 논문은 장기 요양 시설이라는 특수한 도메인에서 근무표 자동 생성의 실용성을 높이기 위해 ‘제약 템플릿 기반 추출’과 ‘예외 제외 메커니즘’이라는 두 축을 제시한다는 점에서 의미가 크다. 기존 스케줄링 연구는 주로 일반적인 제조·서비스 현장에 적용 가능한 제약 모델을 제시했으며, 실제 현장 적용 시 현장 담당자의 암묵적 지식을 반영하기 어려운 한계를 가지고 있었다. 요양보호사 현장은 교대 패턴, 연속 근무일, 직원 간 조합, 환자 특성 등 복합적인 제약이 존재하고, 이들 중 일부는 ‘예외’—예를 들어, 특정 직원의 임시 휴가나 급

December 31, 2025

Computer Science Artificial Intelligence

AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG

AdaGReS 논문은 현재 RAG 시스템이 직면한 두 가지 핵심 문제—토큰 예산의 제한과 컨텍스트 중복—를 동시에 해결하려는 시도로 눈에 띈다. 전통적인 top‑k 검색은 단순히 점수 순으로 청크를 선택하기 때문에, 의미적으로 거의 동일한 문장이 여러 번 포함될 경우 불필요한 토큰을 소모한다. 이는 특히 제한된 컨텍스트 길이를 갖는 대형 언어 모델(Large Language Model, LLM)에서 심각한 성능 저하 요인으로 작용한다. AdaGReS는 이를 극복하기 위해 “관련도‑중복 복합 목표 함수”를 정의한다. 목표 함수는 (1

December 31, 2025

Computer Science NLP

AI-Driven Cloud Resource Optimization for Multi-Cluster Environments

이 논문이 다루는 문제는 다중 클러스터 환경에서 발생하는 전통적인 자원 관리의 한계이다. 현재 대부분의 클라우드 운영자는 각 클러스터를 독립적인 관리 단위로 보고, 스케일링이나 리소스 재배치를 워크로드 변화에 따라 즉각적으로 반응하는 방식으로 수행한다. 이러한 클러스터‑중심적 접근은 전역적인 시야를 결여하게 만들며, 특히 지리적으로 분산된 데이터센터 간에 부하가 불균형하게 전파될 경우 전체 시스템의 비용 효율성과 서비스 수준이 크게 저하된다. 논문은 이를 해결하기 위해 세 가지 핵심 요소를 결합한 AI‑기반 프레임워크를 제시한다.

December 31, 2025

Computer Science Distributed Computing

Classifying long legal documents using short random chunks

이 논문은 법률 문서와 같이 텍스트 길이가 수천 토큰에 달하는 도메인에서 Transformer 모델의 입력 제한을 우회하기 위한 실용적인 접근법을 제시한다. 기존 연구들은 보통 전체 문서를 슬라이딩 윈도우 방식으로 나누거나, 핵심 문장을 추출하는 전처리 단계에 의존한다. 그러나 슬라이딩 윈도우는 연산량이 급증하고, 핵심 문장 추출은 도메인 특화된 요약 모델이 필요해 추가 비용이 발생한다. 저자들은 이러한 문제를 “무작위 청크 샘플링”이라는 간단하지만 효과적인 전략으로 해결한다. 48개의 청크를 무작위로 선택함으로써 문서 전체의 다양

December 31, 2025

Computer Science NLP

Constructing a Neuro-Symbolic Mathematician from First Principles

Mathesis 논문은 현재 LLM이 직면한 “논리적 일관성 부재”라는 근본적인 한계를 신경‑기호 하이브리드 접근법으로 해결하고자 하는 시도이다. 가장 큰 혁신은 수학적 지식을 고차원 하이퍼그래프 형태로 표현한다는 점이다. 전통적인 토큰‑시퀀스 표현은 변수와 연산자 사이의 복잡한 관계를 충분히 포착하지 못하지만, 하이퍼그래프는 노드(개념)와 하이퍼엣지(다중 관계)를 동시에 모델링함으로써 공리, 정의, 정리, 증명 단계 등을 자연스럽게 구조화한다. 이러한 구조 위에 얹어진 Symbolic Reasoning Kernel(SRK) 은 차

December 31, 2025

Computer Science Artificial Intelligence

Counterfactual Self-Questioning for Stable Policy Optimization in Language Models

본 논문이 제시하는 Counterfactual Self‑Questioning(CSQ)은 기존 자기 개선 메커니즘이 안고 있던 “외부 의존성”이라는 근본적인 문제를 근본적으로 해결한다는 점에서 학술적·실용적 의미가 크다. 먼저, CSQ는 하나의 언어 모델이 스스로 “왜 이 추론이 틀렸는가”를 탐색하도록 설계된 세 단계 파이프라인을 도입한다. 초기 롤아웃 단계에서 모델은 일반적인 chain‑of‑thought 방식으로 문제를 해결하고, 그 과정에서 생성된 중간 단계와 최종 답안을 그대로 보관한다. 이어지는 자기질문 단계에서는 모델이 “

December 31, 2025

Computer Science Artificial Intelligence Model

No Image

Do Large Language Models Know What They Are Capable Of?

이 논문은 “메타‑인지”라는 관점에서 LLM의 자기 평가 능력을 체계적으로 검증한다는 점에서 의미가 크다. 먼저 연구진은 “성공 예측”이라는 이진 판단을 통해 모델이 자신의 한계를 얼마나 정확히 인식하는지를 측정하였다. 여기서 사용된 평가지표는 단순 정확도뿐 아니라 ROC‑AUC와 같은 구별력 지표이며, 이는 모델이 과신(over‑confidence)과 과소신(under‑confidence) 사이에서 어느 정도 균형을 잡는지를 보여준다. 결과는 대부분의 최신 LLM이 높은 확신을 보이지만, 무작위보다 높은 AUC를 기록한다는 점이다

December 31, 2025

Computer Science NLP Model

No Image

DynaFix: Iterative Automated Program Repair Driven by Execution-Level Dynamic Information

DynaFix가 제시하는 핵심 아이디어는 “실행‑레벨 동적 정보”를 반복적인 피드백 루프에 통합함으로써 LLM 기반 APR의 한계를 극복한다는 점이다. 기존 LLM‑APR 연구는 주로 정적 코드 구조와 테스트 스위트 결과에 의존했으며, 이는 프로그램의 실제 동작을 반영하지 못한다. 정적 정보만으로는 변수 값의 변동, 조건문 분기, 예외 발생 경로 등 복잡한 런타임 상황을 정확히 파악하기 어렵다. DynaFix는 이러한 문제를 해결하기 위해 매 라운드마다 프로그램을 실제로 실행하고, 변수 스냅샷, 제어 흐름 트레이스, 호출 스택 등

December 31, 2025

Computer Science Software Engineering

Evaluating Contextual Intelligence in Recyclability: A Comprehensive Study of Image-Based Reasoning Systems

본 논문은 재활용 실천을 지원하기 위한 인공지능 기반 도구의 가능성을 탐색한다는 점에서 사회적·환경적 의미가 크다. 연구진은 먼저 재활용 대상 물품을 다양한 각도와 조명 조건에서 촬영한 이미지와, 각 물품이 속해야 할 재활용통(플라스틱, 금속, 종이 등) 및 물리적 치수 정보를 포함한 메타데이터를 결합한 데이터셋을 구축하였다. 데이터셋은 5,000여 장의 이미지와 1,200개의 다중 재질 사례를 포함해, 실제 가정에서 마주치는 복합 상황을 충분히 반영한다. 모델 평가에서는 두 단계의 질문을 제시한다. 첫 번째는 “이 물건은 어느 재

December 31, 2025

System Computer Vision Computer Science

Evaluating the Impact of Compression Techniques on the Robustness of CNNs under Natural Corruptions

본 연구는 모델 압축이 CNN의 견고성에 미치는 영향을 체계적으로 규명하기 위해 세 가지 대표적인 압축 기법—양자화(Quantization), 프루닝(Pruning), 가중치 클러스터링(Weight Clustering)—을 선택하였다. 각각의 기법은 메모리 사용량과 연산량을 감소시키는 메커니즘은 유사하지만, 파라미터 분포와 활성화 패턴에 미치는 영향이 다르다. 양자화는 가중치를 낮은 비트 폭으로 표현함으로써 연산 정밀도를 낮추지만, 정규화된 레이어에서는 오차가 부분적으로 상쇄되는 경향이 있다. 프루닝은 중요도가 낮은 채널이나 필터를

December 31, 2025

Computer Science Computer Vision

No Image

Explaining Why Things Go Where They Go: Interpretable Constructs of Human Organizational Preferences

1. Interpretable formulation of arrangement preferences: People decide where to place objects based on spatial practicality, habitual convenience, semantic coherence, and commonsense appropriateness. 2. A measurement tool for the proposed constructs: A questionnaire measures how strongly each constr

December 31, 2025

Computer Science Artificial Intelligence

Generative Classifiers Avoid Shortcut Solutions

판별 모델은 입력 데이터를 직접 라벨에 매핑하는 방식으로 학습한다. 이 과정에서 모델은 훈련 데이터에 존재하는 통계적 패턴을 최적화하지만, 라벨과 직접적인 인과관계가 없는 특징—예를 들어 배경 색, 촬영 각도, 혹은 텍스트에서 흔히 나타나는 특정 단어—에 과도하게 의존할 위험이 있다. 이러한 스퓨리어스 특징은 훈련 데이터 내에서는 라벨과 높은 상관관계를 보이지만, 실제 배포 환경에서 사소한 분포 이동이 발생하면 급격히 사라진다. 결과적으로 판별 모델은 “단축(shortcut)”을 이용해 높은 정확도를 달성하지만, 일반화 능력은 크게

December 31, 2025

Machine Learning Computer Science

HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment

HiGR 논문은 슬레이트 추천이라는 복합적인 문제를 두 가지 핵심 차원에서 혁신적으로 접근한다. 첫 번째는 아이템 토크나이제이션 단계이다. 기존의 자동회귀 기반 모델은 아이템을 단순히 고유 번호 혹은 임베딩 벡터로 변환한 뒤 순차적으로 예측한다. 이 경우 아이템 간 의미적 연관성이 토큰 수준에서 충분히 반영되지 않아, “음악‑팝”과 “음악‑재즈”와 같은 유사 아이템이 서로 다른 토큰으로 취급돼 모델이 불필요한 혼동을 겪는다. HiGR은 잔차 양자화(residual quantization)와 대비 학습(contrastive learn

December 31, 2025

Computer Science Information Retrieval

Iterative Deployment Improves Planning Skills in LLMs

본 논문은 “반복 배포(iterative deployment)”라는 새로운 모델 진화 프레임워크를 제시한다. 핵심 아이디어는 한 번 배포된 LLM이 실제 사용자와 상호작용하면서 생성한 출력물 중, 특히 계획 문제에 대한 답변을 인간이 검토·선별하여 고품질 데이터셋을 만든다. 이 데이터셋을 이용해 기존 모델을 파인튜닝하고, 다시 배포한다는 과정을 여러 차례 반복한다. 이렇게 하면 모델은 점진적으로 “사용자‑피드백‑데이터‑재학습”이라는 순환 고리를 통해 스스로 성능을 향상시킨다. 실험에서는 고전적인 플래닝 도메인(예: 블록스 월드, 로

December 31, 2025

Computer Science Artificial Intelligence

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

이 논문은 형식화된 수학 연구에 있어 “구조적 추론”이라는 핵심 과제를 명확히 제시한다는 점에서 의미가 크다. 기존의 정리 증명 벤치마크는 주로 구체적인 계산이나 전통적인 위상·대수적 명제에 초점을 맞추어 왔으며, 라이브러리(예: Mathlib)와의 상호작용을 최소화했다. 그러나 현대 수학은 범주론과 같은 고차 구조를 통해 다양한 분야를 연결하고, 이러한 구조는 정의, 함자, 자연 변환 등 복합적인 인터페이스를 요구한다. 따라서 LLM이 실제 연구자 수준의 능력을 보이려면 단순히 “정리를 증명”하는 것을 넘어, 라이브러리 안에서 적

December 31, 2025

Computer Science Logic

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

본 논문은 “에이전트 제작(agentic crafting)”이라는 개념을 기존의 일회성 텍스트 생성과 구별하여, 실제 세계에서 다중 턴을 거쳐 행동하고 그 결과를 관찰·피드백하는 반복적 프로세스로 정의한다. 이는 단순히 코드를 자동 생성하는 수준을 넘어, 복합적인 툴 체인과 언어 기반 워크플로 전반에 걸쳐 모델이 계획·실행·모니터링·수정까지 전 과정을 담당해야 함을 의미한다. 이러한 요구를 충족하려면 모델 자체뿐 아니라, 모델이 작동할 환경, 데이터 파이프라인, 학습·배포 인프라가 모두 유기적으로 연결된 ‘에이전트 학습 생태계(AL

December 31, 2025

Model Artificial Intelligence System Computer Science Learning

Modeling Language as a Sequence of Thoughts

이 논문은 현재 가장 널리 사용되는 트랜스포머 기반 언어 모델이 “표면적” 토큰 연관성에 과도하게 의존한다는 근본적인 한계를 짚고 있다. 토큰 수준에서만 학습이 이루어지면 모델은 문맥 전체에 걸친 일관된 엔티티·사건 표현을 구축하지 못한다. 결과적으로 “역전 저주”(예: “아버지가 아들을 낳았다”와 “아들이 아버지를 낳았다”를 구분하지 못함)와 같은 관계 일반화 오류가 발생하고, 동일한 의미를 가진 다양한 표현을 학습하기 위해 불필요하게 많은 데이터가 요구된다. 인지과학 연구에서는 인간이 언어를 처리할 때 입력 스트림을 일시적인 표

December 31, 2025

Computer Science NLP Model

No Image

More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization

이 논문은 대규모 언어 모델(LLM)의 극저비트 양자화에 있어 기존 이중 이진 분해(Double Binary Factorization, DBF)의 구조적 한계를 정확히 짚어낸다. DBF는 가중치를 부호 행렬과 스케일(엔벨로프) 행렬의 곱으로 표현하는데, 부호를 1비트로 고정하고 스케일을 실수값으로 두어 메모리 사용량을 크게 줄인다. 그러나 스케일 파라미터가 모든 랭크 성분에 동일하게 적용되면서, 모델이 표현할 수 있는 크기 변동 폭이 제한된다. 특히, 랭크‑R 분해에서 R이 커질수록 각 성분이 동일한 크기 프로파일을 공유하게 되므로

December 31, 2025

Machine Learning Computer Science

Mortar: Evolving Mechanics for Automatic Game Design

MORTAR는 자동 게임 디자인 분야에서 ‘메커니즘’이라는 핵심 요소를 진화시키는 새로운 접근법을 제시한다는 점에서 학술적·실용적 의미가 크다. 기존 연구들은 주로 레벨 디자인이나 스토리 텔링을 자동화하는 데 초점을 맞추었으며, 게임 규칙 자체를 생성·조정하는 작업은 여전히 인간 디자이너의 전문 영역으로 남아 있었다. 본 시스템은 품질‑다양성(QD) 알고리즘을 활용해 ‘다양성’과 ‘품질’이라는 두 축을 동시에 최적화한다. 구체적으로, 메커니즘 후보군을 LLM(예: GPT‑4)에게 프롬프트로 제시해 자연어 기반 규칙을 생성하고, 이를

December 31, 2025

Computer Science Artificial Intelligence

No Image

Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

이 논문은 산업 현장에서 흔히 마주치는 ‘보이지 않는 작업 조건’이라는 문제를 핵심으로 삼아, 기존 결함 진단 모델들의 일반화 한계를 체계적으로 극복하고자 한다. 첫 번째 핵심 기여는 이중 분리(disentanglement) 프레임워크 이다. 여기서는 두 차원의 분리를 동시에 수행한다. 하나는 모달리티 차원 으로, 서로 다른 센서(예: 전류, 진동, 온도)에서 추출된 특징을 ‘모달리티 불변(modality‑invariant)’과 ‘모달리티 특화(modality‑specific)’로 나눈다. 이는 각 센서가 제공하는 고유한 물리적 정

December 31, 2025

Computer Science Artificial Intelligence Model

R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory

R‑Debater는 “논증 메모리”라는 개념을 토론 생성에 적용함으로써 기존 LLM 기반 토론 시스템이 갖는 몇 가지 근본적인 한계를 극복한다. 첫째, 일반적인 LLM은 대규모 사전학습을 통해 풍부한 언어 능력을 보유하지만, 특정 주장이나 증거를 일관되게 인용하는 능력은 제한적이다. 이는 특히 다중 턴 토론에서 ‘입장 일관성’과 ‘증거 기반 주장’이 요구될 때, 모델이 앞선 발언을 망각하거나 부정확한 정보를 삽입하는 오류를 초래한다. R‑Debater는 별도의 토론 지식베이스를 구축해 사례‑형 증거와 과거 토론 전개를 인덱싱하고,

December 31, 2025

Computer Science NLP

Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization

이 논문은 대규모 언어 모델(LLMs)의 협업 능력을 향상시키기 위해 강화 학습을 통합한 새로운 프레임워크를 제시합니다. 이 프레임워크는 다중 에이전트 환경에서 전역적인 성능 최적화에 어려움을 겪는 LLMs의 한계를 극복하려고 합니다. 논문은 협업을 분산 부분可观测马尔可夫决策过程（Dec POMDP）的形式化，并采用集中训练与分散执行（CTDE）。这种方法通过引入组相对策略优化（GRPO），在训练过程中利用全局信号来共同优化代理策略，同时简化联合奖励以平衡任务质量、速度和协调成本。实验结果表明，在协作写作和编码基准测试中，该框架比单代理基线提高了3倍的任务处理速

December 31, 2025

Learning

No Image

Toward Large-Scale Photonics-Empowered AI Systems: From Physical Design Automation to System-Algorithm Co-Exploration

이 논문은 포토닉스 기반 인공지능 가속기의 연구가 “디바이스‑레벨 혁신”에서 “시스템‑레벨 실용화” 단계로 전환되는 데 필요한 핵심 과제를 체계적으로 정리하고, 이를 해결하기 위한 통합 설계 흐름을 제시한다는 점에서 의미가 크다. 첫 번째 고려사항인 동적 텐서 연산 지원은 현재 AI 모델이 고정된 가중치 매트릭스만을 활용하는 전통적인 컨볼루션 가속기와는 근본적으로 다른 요구사항이다. 특히 Transformer와 같은 어텐션 메커니즘은 입력 시퀀스 길이에 따라 실시간으로 가중치 행렬을 재구성하고, 다중 헤드 연산을 병렬적으로 수행한다

December 31, 2025

System Physics

No Image

Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time

본 논문은 현재 LLM이 복잡한 문제 해결에 흔히 사용하는 CoT(Chain‑of‑Thought) 방식이 “과다 토큰 생성”과 “불안정한 사고 흐름”이라는 두 가지 주요 병목을 안고 있다는 점을 정확히 짚어낸다. 저자들은 먼저 대규모 모델(예: GPT‑NeoX, LLaMA)에서 추론 시 생성되는 토큰 시퀀스를 단계별로 분석하고, 각 단계가 어떤 인지적 역할을 수행하는지 메타데이터화한다. 이 과정에서 특히 ‘검증(verification)’ 단계와 ‘역추적(backtracking)’ 단계가 별도의 어텐션 헤드에 집중되어 있다는 사실을

December 31, 2025

Computer Science NLP Model

An Comparative Analysis about KYC on a Recommendation System Toward Agentic Recommendation System

본 논문은 KYC 데이터를 에이전트형 인공지능(AI)과 결합함으로써 개인화 추천의 정확도와 신뢰성을 동시에 향상시키는 새로운 패러다임을 제시한다. 먼저, KYC는 전통적으로 금융 기관이 고객의 신원·거래 위험을 평가하기 위해 수집하는 정형·비정형 데이터 집합이며, 개인정보 보호와 규제 준수 측면에서 높은 민감성을 가진다. 이러한 데이터를 추천 시스템에 직접 투입하면 사용자의 신용도·소득 수준·거래 패턴 등을 기반으로 맞춤형 콘텐츠를 제공할 수 있어, 특히 광고(Ad)와 기술(Tech) 분야에서 전환율을 크게 끌어올릴 가능성이 있다.

December 30, 2025

Computer Science Analysis Information Retrieval System

Causify DataFlow: A Framework For High-performance Machine Learning Stream Computing

본 논문은 데이터 과학 실무에서 가장 빈번히 마주치는 ‘데이터는 유한하고 완전하다’는 가정을 근본적으로 뒤흔든다. 전통적인 배치 기반 워크플로우는 고정된 데이터셋을 한 번에 메모리로 로드하거나 단일 패스로 처리한다는 전제하에 설계되었으며, 이는 센서 스트림, 금융 거래 로그, 시스템 이벤트와 같이 시간에 따라 지속적으로 생성되는 데이터와는 근본적으로 맞지 않는다. 저자는 이러한 불일치를 해결하기 위해 Causify DataFlow라는 통합 컴퓨테이셔널 모델을 제안한다. 첫째, 프레임워크는 DAG를 선언적으로 정의하고, 동일한 정의를

December 30, 2025

Framework Machine Learning Computer Science Learning Data

Comparing Approaches to Automatic Summarization in Less-Resourced Languages

이 논문은 자원이 부족한 언어(LRL, Less‑Resourced Languages)에서 자동 요약 기술의 현황과 한계를 체계적으로 조명한다. 먼저, 대형 언어 모델(LLM)의 제로샷 프롬프트 방식을 다양한 모델 크기(예: GPT‑3.5, LLaMA‑7B 등)와 함께 실험했는데, 파라미터 수가 비슷하더라도 사전 학습 데이터의 언어 다양성, 토크나이저 설계, 그리고 프롬프트 엔지니어링 차이에 따라 성능 편차가 크게 나타났다. 이는 LLM이 고자원 언어에 최적화된 구조를 가지고 있어, LRL에 대한 일반화 능력이 제한적임을 시사한다.

December 30, 2025

Computer Science NLP

Deep Learning in Geotechnical Engineering: A Critical Assessment of PINNs and Operator Learning

이 논문은 최근 지반공학 분야에 도입된 세 가지 딥러닝 프레임워크—물리 기반 신경망(PINN), 딥 연산자 네트워크(DeepONet), 그래프 네트워크 시뮬레이터(GNS)—를 전통적인 수치 해법과 직접 비교함으로써 실용성을 평가한다. 첫 번째 실험인 파동 전파 문제는 고주파 동적 응답을 정확히 포착해야 하는 전형적인 테스트베드이다. 여기서 PINN은 물리 방정식을 손실 함수에 직접 삽입하는 방식임에도 불구하고, 미분 연산과 최적화 과정에서 발생하는 수치적 불안정성으로 인해 유한차분(FD) 대비 90 000배 느려졌다. 오차 측면에서

December 30, 2025

Learning Physics

DRL-TH: Jointly Utilizing Temporal Graph Attention and Hierarchical Fusion for UGV Navigation in Crowded Environments

본 논문은 복잡한 인간·로봇 혼재 환경에서 UGV가 실시간으로 안전하고 효율적으로 이동하기 위해 필요한 두 가지 핵심 요소, 즉 ‘시간적 연속성’과 ‘다중 센서 융합’을 동시에 만족시키는 새로운 DRL 기반 아키텍처를 제시한다. 기존 DRL 기반 내비게이션 연구들은 주로 현재 시점의 RGB 이미지 혹은 LiDAR 포인트 클라우드와 같은 단일 프레임 데이터를 입력으로 사용하고, 여러 모달리티를 결합할 때는 단순히 벡터를 이어 붙이는(concatenation) 방식을 채택한다. 이러한 설계는 (1) 과거 프레임에서 관찰된 움직이는 장애

December 30, 2025

Computer Science Robotics

No Image

Factorized Learning for Temporally Grounded Video-Language Models

이 논문은 기존 비디오‑언어 모델이 “한 번에 전체 비디오를 요약하고 질문에 답한다”는 전통적인 패러다임을 탈피한다는 점에서 큰 의미가 있다. 기존 방법들은 종종 시간적 정보를 흐릿하게 처리하거나, 근거가 되는 시각적 증거를 명시적으로 제시하지 못해 해석 가능성이 낮았다. 저자들은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 generation objective의 factorization 이다. 모델이 먼저 “어떤 시간 구간이 질문에 대한 근거가 되는가”를 판단하고, 그 구간에 해당하는 evidence

December 30, 2025

Computer Science Model Learning Computer Vision

No Image

HOLOGRAPH: Active Causal Discovery via Sheaf-Theoretic Alignment of Large Language Model Priors

HOLOGRAPH 논문은 인과 구조 학습이라는 오래된 문제에 최신 인공지능 기술을 수학적으로 결합한 시도라 할 수 있다. 전통적인 인과 발견 방법은 조건부 독립성 검정이나 구조적 방정식 모델을 기반으로 하지만, 관측 데이터만으로는 동일한 마르코프 등가 클래스 내의 여러 그래프를 구분하기 어렵다. 이 한계를 극복하기 위해 연구자들은 외부 지식, 특히 인간이 만든 지식 그래프나 도메인 전문가의 의견을 사전확률로 도입해 왔다. 최근에는 LLM이 방대한 텍스트 코퍼스를 학습함으로써 “인과적 직관”을 내포하고 있다는 점에 주목해, LLM을

December 30, 2025

Machine Learning Computer Science Model

iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning

iCLP는 기존 “체인‑오브‑생각”(CoT) 접근법의 두 가지 한계를 동시에 해결하려는 시도이다. 첫 번째는 인간이 문제를 풀 때 텍스트로 명시적인 계획을 세우지 않더라도, 과거 경험에서 추출된 압축된 패턴을 무의식적으로 활용한다는 점이다. 이러한 암묵적 인지는 LLM이 직접 텍스트 계획을 생성할 때 발생하는 “환각”(hallucination) 문제를 회피할 수 있는 가능성을 제공한다. 두 번째는 다양한 도메인과 질문 형태에 대해 일관된 텍스트 계획을 설계하는 것이 비현실적이라는 점이다. iCLP는 명시적 계획을 먼저 수집하고, 이

December 30, 2025

Computer Science NLP Model

No Image

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

본 논문은 다단계 RAG 시스템에서 메모리의 역할을 근본적으로 재정의한다는 점에서 학술적·실용적 의의가 크다. 기존 연구들은 메모리를 “수동적 저장소”로 간주하고, 검색된 텍스트 조각들을 단순히 압축하거나 순차적으로 연결하는 방식에 머물렀다. 이러한 접근은 개별 사실을 나열하는 수준에 그치며, 사실 간의 복합적 관계—예를 들어, 인과관계, 공통 원인, 상호 보완적 증거 등—를 포착하지 못한다. 결과적으로 장기 문맥에서 여러 단계에 걸친 추론이 단절되고, 전역적 의미망을 형성하는 데 한계가 발생한다. HGMEM은 이러한 문제를 해결하

December 30, 2025

Computer Science NLP Model

OptRot: Mitigating Weight Outliers via Data-Free Rotations for Post-Training Quantization

대형 언어 모델(LLM)은 수억에서 수조 개의 파라미터를 보유하고 있어, 실제 서비스 환경에서 메모리와 연산 비용을 크게 절감하기 위해 사후 양자화(post‑training quantization, PTQ)가 필수적이다. 그러나 LLM의 가중치와 활성값에는 “이상치(outlier)”라 불리는 극단적인 값들이 존재한다. 이러한 이상치는 양자화 단계에서 스케일링을 크게 잡아야 하므로, 전체 분포가 과도하게 압축되고 결과적으로 정밀도가 크게 떨어진다. 기존 연구는 이 문제를 해결하기 위해 회전(rotation) 기법을 도입했는데, 회전은

December 30, 2025

Computer Science Data Machine Learning

No Image

Pathology Context Recalibration Network for Ocular Disease Recognition

본 논문은 안과 영상 진단 분야에서 ‘병리학적 맥락’과 ‘전문가 경험’이라는 두 가지 인간 중심의 사전 정보를 딥러닝 모델에 체계적으로 통합하려는 시도를 제시한다. 먼저 제안된 Pathology Recalibration Module(PRM)은 두 단계로 구성된다. 첫 번째 단계인 픽셀‑단위 맥락 압축 연산자는 고해상도 안구 이미지에서 지역적 특징을 저차원 표현으로 압축함으로써 연산 효율성을 높이고, 동시에 병변이 나타나는 영역의 전반적인 구조적 정보를 보존한다. 두 번째 단계인 병리학적 분포 집중 연산자는 압축된 특징 맵을 기반으로

December 30, 2025

Computer Vision Computer Science Network

Skim-Aware Contrastive Learning for Efficient Document Representation

Paper Analysis Title and Abstract Overview: The paper titled 'Skim Aware Contrastive Learning for Efficient Document Representation' focuses on developing an efficient document encoder that can handle long documents effectively, inspired by how domain experts like legal or medical professionals skim

December 30, 2025

Computer Science NLP Learning

No Image

Tubular Riemannian Laplace Approximations for Bayesian Neural Networks

본 연구는 베이지안 신경망(BNN)에서 라플라스 근사의 한계를 정확히 짚어낸 뒤, 리만 기하학을 도입해 이를 극복하려는 시도를 보여준다. 전통적인 라플라스 근사는 MAP(최대 사후 확률) 추정점 주변을 유클리드 거리 기반의 다변량 정규분포로 근사한다. 그러나 딥러닝 모델은 수백만 차원의 파라미터 공간에 복잡한 비선형 구조와 다중 대칭(예: 레이어 순열, 스케일 변환 등)를 가지고 있어, 손실 표면은 극도로 얇고 긴 골짜기 형태를 띤다. 이런 상황에서 유클리드 메트릭은 실제 곡률을 무시하고, 결과적으로 과도하게 축소된 혹은 과도하게

December 30, 2025

Computer Science Network Machine Learning

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

이 논문은 로봇 조작 시스템이 직면한 두 가지 핵심 과제, 즉 “넓은 의미적 일반화”와 “고정밀 연속 제어” 사이의 균형을 정밀하게 진단하고 해결책을 제시한다는 점에서 큰 의미가 있다. 먼저 ERIQ(Embodied Reasoning Intelligence Quotient)라는 새로운 벤치마크를 도입했는데, 이는 기존 VLA 모델 평가가 “입력‑출력” 형태의 성공률에만 초점을 맞추는 반면, 질문‑답변 형태의 6천 개 이상 데이터셋을 통해 ‘추론 단계’를 별도로 측정한다는 점이 차별점이다. 네 가지 추론 차원(예: 물체 관계 이해,

December 30, 2025

Computer Science Robotics

From Clay to Code: Typological and Material Reasoning in AI Interpretations of Iranian Pigeon Towers

이 논문은 생성 AI 시스템이 건축물의 전통적인 디자인 요소와 그 의미를 어떻게 해석하고 재현하는지에 대한 깊이 있는 분석을 제공한다. 특히 이란의 비둘기 탑이라는 특정 사례를 통해 세 가지 주요 AI 모델, 즉 Midjourney v6, DALL•E 3, 그리고 Stable Diffusion XL (SDXL) 기반의 DreamStudio를 평가하고 있다. 연구는 참조적 단계에서 이미지를 직접적으로 재현하는 능력부터 시작하여, 적응적 단계에서는 주어진 정보에 따라 건축물의 특성을 어떻게 변형시키는지까지 살펴본다. 마지막으로 추측적

December 29, 2025

Fuzzy-Logic and Deep Learning for Environmental Condition-Aware Road Surface Classification

본 연구는 실시간 도로 상태 모니터링 시스템의 개발을 목표로 하며, 이를 통해 차량 관리 및 활성 차량 제어 시스템에 필요한 정보를 제공하고자 합니다. 전통적인 방법들이 비용과 시간이 많이 소요되는 반면, 본 연구에서는 날씨 조건 데이터와 도로 표면 상태 데이터를 활용한 새로운 접근법을 제시합니다. 특히, 칼스루에 공과대학교 주변 도로에서 모바일 폰 카메라를 이용해 수집된 이미지 데이터와 가속도 데이터를 통해 다양한 딥러닝 알고리즘의 성능을 비교하였습니다. 본 연구에서는 Alexnet, LeNet, VGG 및 Resnet 등 네 가

December 29, 2025

Learning

PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis

PathFound 논문은 기존 병리학 인공지능 모델이 갖는 ‘한 번에 전체 슬라이드 처리’라는 한계를 명확히 지적하고, 실제 병리학자의 진단 과정과 유사한 증거‑중심적 순환 프로세스 를 도입함으로써 새로운 연구 방향을 제시한다. 먼저, 모델 아키텍처는 세 가지 핵심 모듈로 구성된다. ① 시각 기반 파운데이션 모델 은 대용량 디지털 슬라이드에서 고해상도 특징을 추출하고, ② 비전‑언어 모델(VLM) 은 이미지 특징을 텍스트 형태의 임상 질문이나 설명과 연결한다. ③ 강화학습(RL) 기반 추론 에이전트 는 현재 진단 가설을 평가하고,

December 29, 2025

Computer Science Model Computer Vision

< Category Statistics (Total: 793) >

Astrophysics

101

Condensed Matter

Economics

Electrical Engineering and Systems Science

General

272

General Relativity

HEP-EX

HEP-PH

HEP-TH

MATH-PH

NUCL-TH

Nonlinear Sciences

Physics

Quantitative Biology

Quantitative Finance

Quantum Physics

Statistics

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

Device-Native Autonomous Agents for Privacy-Preserving Negotiations

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems

Geometric Regularization in Mixture-of-Experts: The Disconnect Between Weights and Activations

Language as Mathematical Structure: Examining Semantic Field Theory Against Language Games

Robust Uncertainty Quantification for Factual Generation of Large Language Models

Sparse Probabilistic Coalition Structure Generation: Bayesian Greedy Pursuit and $ell_1$ Relaxations

VisNet: Efficient Person Re-Identification via Alpha-Divergence Loss, Feature Fusion and Dynamic Multi-Task Learning

A study on constraint extraction and exception exclusion in care worker scheduling

AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG

AI-Driven Cloud Resource Optimization for Multi-Cluster Environments

Classifying long legal documents using short random chunks

Constructing a Neuro-Symbolic Mathematician from First Principles

Counterfactual Self-Questioning for Stable Policy Optimization in Language Models

Do Large Language Models Know What They Are Capable Of?

DynaFix: Iterative Automated Program Repair Driven by Execution-Level Dynamic Information

Evaluating Contextual Intelligence in Recyclability: A Comprehensive Study of Image-Based Reasoning Systems

Evaluating the Impact of Compression Techniques on the Robustness of CNNs under Natural Corruptions

Explaining Why Things Go Where They Go: Interpretable Constructs of Human Organizational Preferences

Generative Classifiers Avoid Shortcut Solutions

HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment

Iterative Deployment Improves Planning Skills in LLMs

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

Modeling Language as a Sequence of Thoughts

More Than Bits: Multi-Envelope Double Binary Factorization for Extreme Quantization

Mortar: Evolving Mechanics for Automatic Game Design

Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory

Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization

Toward Large-Scale Photonics-Empowered AI Systems: From Physical Design Automation to System-Algorithm Co-Exploration

Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time

An Comparative Analysis about KYC on a Recommendation System Toward Agentic Recommendation System

Causify DataFlow: A Framework For High-performance Machine Learning Stream Computing

Comparing Approaches to Automatic Summarization in Less-Resourced Languages

Deep Learning in Geotechnical Engineering: A Critical Assessment of PINNs and Operator Learning

DRL-TH: Jointly Utilizing Temporal Graph Attention and Hierarchical Fusion for UGV Navigation in Crowded Environments

Factorized Learning for Temporally Grounded Video-Language Models

HOLOGRAPH: Active Causal Discovery via Sheaf-Theoretic Alignment of Large Language Model Priors

iCLP: Large Language Model Reasoning with Implicit Cognition Latent Planning

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

OptRot: Mitigating Weight Outliers via Data-Free Rotations for Post-Training Quantization

Pathology Context Recalibration Network for Ocular Disease Recognition

Skim-Aware Contrastive Learning for Efficient Document Representation

Tubular Riemannian Laplace Approximations for Bayesian Neural Networks

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

From Clay to Code: Typological and Material Reasoning in AI Interpretations of Iranian Pigeon Towers

Fuzzy-Logic and Deep Learning for Environmental Condition-Aware Road Surface Classification

PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis

< Category Statistics (Total: 793) >

Start searching

No results found