KOINEU Logo
AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

본 논문은 현재 AI 기반 코딩 어시스턴트가 개발 현장에서 널리 활용되는 상황에서, 왜 여전히 ML 프로젝트의 성공률이 낮은지를 체계적으로 탐구한다. 연구자는 먼저 기존 문헌을 검토하여 성공 요인을 전략, 프로세스, 생태계, 지원 네 가지 차원으로 구분하고, 이를 시각화한 ‘머신러닝 캔버스’를 제안한다. 설문 설계는 각 차원을 정량화할 수 있는 항목들을 포함했으며, 150명의 데이터 과학자를 대상으로 6개월에 걸쳐 데이터를 수집하였다. 통계 분석에는 구조방정식 모델링(SEM)을 활용해 요인 간 인과관계를 검증했으며, β값과 p값을

Learning
No Image

Yukthi Opus 대규모 NP Hard 최적화를 위한 다중 체인 하이브리드 메타휴리스틱

Yukthi Opus(YO)는 메타휴리스틱 설계에서 흔히 발생하는 ‘전역 탐색과 지역 탐색의 균형’ 문제를 세 단계 구조로 명확히 구분함으로써 해결책을 제시한다. 첫 번째 레이어인 MCMC 기반 전역 탐색은 확률적 전이 메커니즘을 이용해 탐색 공간을 균등하게 샘플링하고, 초기 번인 단계에서 충분히 다양한 영역을 방문하도록 설계되었다. 이때 블랙리스트를 도입해 이미 낮은 품질을 보인 지역을 재방문하지 않게 함으로써 불필요한 계산을 크게 절감한다는 점이 눈에 띈다. 두 번째 레이어는 전통적인 탐욕적 로컬 서치를 적용해 현재 위치에서 가

Computer Science Neural Computing
드럼 반주 생성과 세밀한 리듬 제어를 위한 DARC

드럼 반주 생성과 세밀한 리듬 제어를 위한 DARC

DARC는 현재 음악 생성 연구에서 두드러진 문제점, 즉 ‘구조적 제어와 스타일적 자유 사이의 트레이드오프’를 효과적으로 해소한다는 점에서 의미가 크다. 기존 스템‑투‑스템 접근법은 악기 간 상호작용을 반영해 조화로운 반주를 만들 수 있지만, 리듬 패턴을 사용자가 직접 지정하거나 미세 조정하기는 어려웠다. 반대로 timbre‑transfer 기반 모델은 사용자가 직접 만든 비트박싱·탭핑 같은 리듬 시퀀스를 입력으로 받아들일 수 있지만, 그 리듬이 현재 진행 중인 화성·멜로디와 얼마나 잘 맞는지는 보장되지 않는다. DARC는 이 두

Computer Science Sound
No Image

FALCON 교차 도메인 소수 샷 적대 학습 기반 의료 영상 분할

FALCON 논문은 현재 의료 영상 분할 분야가 직면한 세 가지 핵심 문제—라벨 데이터의 희소성, 환자 간 해부학적 변이, 그리고 실시간 임상 적용을 위한 연산 효율성—를 동시에 해결하려는 시도로 평가할 수 있다. 가장 눈에 띄는 점은 “메타‑학습 → 적대적 파인튜닝 → 경계 인식 학습”이라는 3단계 전이 전략이다. 첫 단계에서 자연 이미지(예: PASCAL‑5ⁱ, COCO‑20ⁱ)로 메타‑러닝을 수행함으로써, 다양한 클래스와 복잡한 배경을 가진 상황에서도 빠르게 새로운 태스크에 적응할 수 있는 ‘학습‑학습’ 메커니즘을 구축한다.

Computer Vision Computer Science Learning
KGCE 지식 강화 이중 그래프 평가기 기반 크로스 플랫폼 교육 에이전트 벤치마크

KGCE 지식 강화 이중 그래프 평가기 기반 크로스 플랫폼 교육 에이전트 벤치마크

KGCE 논문은 현재 교육용 AI 에이전트 평가 체계가 직면한 두 가지 핵심 한계를 체계적으로 진단하고, 이를 극복하기 위한 설계 원칙을 명확히 제시한다. 첫 번째 한계는 ‘프라이빗 도메인 소프트웨어’에 대한 구조적 이해 부족이다. XiaoYa Intelligent Assistant나 HuaShi XiaZi와 같은 학교 전용 애플리케이션은 UI 흐름, API 호출 방식, 데이터 포맷 등이 일반 상용 소프트웨어와 크게 다르다. 기존 멀티모달 LLM 기반 에이전트는 사전 학습 데이터에 이러한 특수 사례가 거의 포함되지 않아, 실제 실행

Computer Science Artificial Intelligence Model
Logics STEM 실패 기반 사후 학습과 문서 지식 강화로 LLM 추론력 극대화

Logics STEM 실패 기반 사후 학습과 문서 지식 강화로 LLM 추론력 극대화

Logics‑STEM 논문은 최근 LLM(Large Language Model) 분야에서 가장 뜨거운 이슈인 “추론 능력 강화”에 대해 데이터와 알고리즘을 동시에 최적화하는 전략을 제시한다. 먼저 데이터 측면을 살펴보면, 저자들은 7.2 M 규모의 SFT( supervised fine‑tuning ) 데이터셋을 구축하기 위해 5단계 파이프라인을 적용했다. 주석 단계에서는 인간 전문가가 장기 사고 사슬(chain‑of‑thought) 형태의 답변을 직접 작성하도록 하여, 모델이 단순히 정답을 맞추는 것이 아니라 사고 과정을 학습하도록

Computer Science Artificial Intelligence
관절형 객체의 온라인 추정 및 조작

관절형 객체의 온라인 추정 및 조작

이 논문은 서비스 로봇이 일상 가정 환경에서 마주치는 다양한 관절형 객체(예: 서랍, 문, 회전식 손잡이 등)를 사전 지식 없이도 신속히 파악하고 조작할 수 있도록 하는 통합 프레임워크를 제시한다. 핵심 아이디어는 ‘시각‑촉각 융합’이다. 기존 딥러닝 기반 어포던스 예측은 풍부한 이미지 데이터로부터 객체의 잠재적 움직임 축이나 제한을 추정하지만, 실제 물리적 제약(마찰, 스프링 저항 등)을 반영하지 못한다. 반면, 관절 운동을 직접 관찰해 추정하는 전통적 방법은 실제 접촉이 선행돼야 하므로 초기 탐색 비용이 크다. 저자들은 이 두

Computer Science Robotics
길이 인식 적대적 학습을 통한 가변 길이 궤적 생성 몰 쇼핑객 경로를 위한 디지털 트윈

길이 인식 적대적 학습을 통한 가변 길이 궤적 생성 몰 쇼핑객 경로를 위한 디지털 트윈

본 논문은 가변 길이 시퀀스, 특히 쇼핑몰 내 고객의 이동 경로와 같은 복합적인 시간·공간 데이터를 생성하는 문제에 초점을 맞춘다. 전통적인 미니배치 학습에서는 동일 배치 내에 길이가 크게 다른 시퀀스가 섞이게 되는데, 이는 그래디언트의 스케일 차이를 야기하고 최적화 과정에서 불안정성을 초래한다. 특히 GAN 기반 생성 모델은 판별자가 “길이 자체”를 쉽게 구분하는 단축(shortcut) 전략을 취할 위험이 있는데, 이는 실제 의미 있는 패턴(예: 방문 순서, 체류 시간)보다 길이 차이에만 민감하게 반응하게 만든다. 결과적으로 생성

Machine Learning Computer Science
No Image

디지털 음악 플랫폼의 로열티 모델 최적화: 선형 계약을 통한 효율적인 학습 방법

이 논문은 디지털 음악 플랫폼에서 새로운 로열티 모델 도입에 대한 핵심 문제, 즉 불확실한 아티스트 특성의 학습을 다루며, 이를 위한 최적 샘플 복잡도를 분석하고 제시합니다. 논문은 (Dütting 등, 2025)의 표본 기반 학습 프레임워크를 확장하여 선형 계약이라는 특정 계약 클래스에 대한 최적 학습을 위한 샘플 복잡도를 분석하고 있습니다. 기술적 혁신성: 논문은 디지털 음악 플랫폼이 새로운 로열티 모델을 도입할 때 직면하는 핵심 문제인 불확실한 아티스트 특성의 학습을 해결하기 위한 방법론을 제시합니다. 특히, 이 논문에서 제안

Computer Science Game Theory
No Image

삼중 컨텍스트에서 조건 속성 및 귀속 조건 함축을 위한 최적 기반 구축

삼중 컨텍스트는 전통적인 이항 관계를 넘어 객체‑속성‑조건이라는 세 차원을 동시에 고려하는 데이터 모델로, 지식 발견 및 의미론적 분석에 있어 강력한 표현력을 제공한다. 그러나 이러한 다차원 구조에서는 기존의 이항 컨텍스트에서 사용되는 함축(implication) 기반 추론 기법을 그대로 적용하기 어렵다. 특히 조건 속성(conditional attribute)과 귀속 조건(attributional condition)이라는 두 종류의 함축이 동시에 존재할 경우, 서로 얽히는 전제와 결론 사이의 중복 및 불필요한 함축이 급증하여 효율

Computer Science Artificial Intelligence
숨겨진 인터페이스 드러내기 LLM 기반 타입 추론으로 macOS 사설 프레임워크 역공학

숨겨진 인터페이스 드러내기 LLM 기반 타입 추론으로 macOS 사설 프레임워크 역공학

MOTIF는 크게 두 가지 핵심 요소로 구성된다. 첫 번째는 Objective‑C 런타임 정보를 활용해 메서드 호출 관계와 클래스 계층 구조를 추출하는 ‘메타데이터 수집 모듈’이다. 이 모듈은 dyld shared cache와 Mach‑O 바이너리를 동적으로 로드하고, objc getClass, method getImplementation 등의 런타임 API를 호출해 실제 메모리 주소와 심볼 정보를 수집한다. 수집된 데이터는 그래프 형태로 정규화되어 이후 단계에 전달된다. 두 번째는 파인튜닝된 대형 언어 모델(LLM)이다. 연구팀은

Computer Science Framework Cryptography and Security
하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

본 논문은 자율주행 제어에 있어 강화학습(RL)이 직면한 근본적인 한계를 짚어낸 뒤, JEPA 기반 자기지도 학습이 제공할 수 있는 대안을 제시한다. 기존 RL 접근법은 보상 설계가 복잡하고, 시뮬레이션 혹은 실제 도로에서 수백만 단계에 달하는 데이터가 필요하다. 특히 픽셀 수준의 재구성 손실을 최소화하려는 목표는 고차원 입력 공간에서 잡음(노이즈) 특성을 과도하게 학습하게 만들며, 이는 정책의 불안정성과 안전성 저하로 이어진다. 인간이 새로운 기술을 습득할 때 ‘상상’과 ‘예측’ 과정을 통해 적은 경험만으로도 일반화된 모델을 구축

Computer Science Robotics Model
No Image

EgoGrasp 이머시브 영상에서 세계 좌표 손물체 상호작용 재구성

EgoGrasp 논문은 이머시브(egocentric) 영상에서 세계 좌표계의 손‑물체 상호작용을 복원한다는 매우 야심찬 목표를 설정한다. 기존 연구는 크게 두 가지 한계에 봉착한다. 첫째, 정적 이미지 기반 방법은 시간적 연속성을 활용하지 못해 동적인 손동작과 물체 변화를 정확히 포착하지 못한다. 둘째, 카메라 좌표계에 국한된 접근법은 전역적인 위치와 자세 정보를 제공하지 못한다. 특히 일상 생활에서 촬영되는 이머시브 영상은 급격한 카메라 움직임, 조명 변화, 그리고 손과 물체의 빈번한 가림 현상이 특징이다. 이러한 환경에서는 2D

Computer Science Computer Vision
그래프 신경망의 과거를 활용한 미래: HISTOGRAPH로 노드 임베딩의 진화 모델링

그래프 신경망의 과거를 활용한 미래: HISTOGRAPH로 노드 임베딩의 진화 모델링

HISTOGRAPH는 그래프 신경망(GNN) 분야의 중요한 발전을 이끌어내며, 특히 노드 임베딩의 진화와 공간적 상호작용을 동시에 모델링하는 데 중점을 두고 있습니다. 이러한 접근법은 기존 GNN 아키텍처를 개선하고, 다양한 그래프 관련 작업에서 우수한 성능을 달성할 수 있는 새로운 방향성을 제시합니다. 기술적 혁신성: HISTOGRAPH의 핵심 혁신 중 하나는 역사적 활성화 추적 입니다. 이 접근법은 GNN이 메시지 전달과 집계를 통해 노드 임베딩을 생성하는 과정에서 발생한 시간적 경로를 고려합니다. 각 노드의 층별 표현을 시퀀스

Computer Science Network Learning Machine Learning
다차원 프롬프트 체이닝을 통한 소형 언어 모델의 오픈‑도메인 대화 품질 향상

다차원 프롬프트 체이닝을 통한 소형 언어 모델의 오픈‑도메인 대화 품질 향상

본 논문은 최근 대형 언어 모델(LLM)이 대화 시스템에서 보여주는 뛰어난 성능과는 달리, 소형 언어 모델(SLM)이 갖는 배포·운영상의 장점을 살리면서도 품질 격차를 메우기 위한 실용적인 접근법을 제시한다. 핵심 아이디어는 ‘프롬프트 체이닝(prompt chaining)’이라는 기법을 다차원적으로 확장하여, 각각의 대화 품질 요소인 자연스러움(Naturalness), 일관성(Coherence), 흥미성(Engagingness)을 독립적으로 강화하고, 최종 응답에서 이들을 조화롭게 결합하도록 설계한 것이다. 1. 프레임워크 설계 N

Computer Science NLP
데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

이 논문은 콘크리트 구조물 내에서 염화물의 시간 경과 변화에 미치는 혼합물 조성의 영향을 분석하는데 초점을 맞추고 있다. 이를 위해 다양한 머신러닝 알고리즘을 사용하여 데이터 주도적 접근법을 적용한다. 연구 방법론은 간단한 선형 회귀, k 최근접 이웃 회귀, 커널 리지 회귀와 복잡한 서포트 벡터 회귀, 가우시안 프로세스 회귀, 다층 퍼셉트론(MLP), 게이트 순환 유닛(GRU)을 포함한다. 각 알고리즘의 성능은 다양한 지표를 통해 평가되며, 특히 GPR 모델은 명확하고 설명 가능한 추세를 제공하여 숨겨진 상관관계를 드러내는 데 효과

Computer Science Learning Data Machine Learning
No Image

워프 코르텍스: 소비자 하드웨어에서 백만 에이전트 인지 확장의 비동기적, 메모리 효율적인 아키텍처

본 논문은 워프 코르텍스 아키텍처를 통해 대형 언어 모델(LLM)의 병렬 추론 능력을 크게 향상시키는 방법을 제시한다. 이 아키텍처는 에이전트가 독립적인 프로세스가 아닌 비동기 스레드로서 동작하도록 설계되어, 가중치와 컨텍스트 메모리의 복잡도를 크게 줄인다. 특히, 토폴로지 데이터 분석(TDA)에서 유래한 하이브리드 랜드마크 기법을 통해 KV 캐시를 점 클라우드로 취급하고, 증인 복잡체에 영감을 받은 희박화 방법을 적용하여 컨텍스트의 지속적 호모로지 특성을 유지하면서 메모리 사용량을 크게 줄일 수 있다. 논문에서 제시된 워프 코르텍

Computer Science Machine Learning
No Image

인공지능 생성 이미지 탐지를 위한 대규모 COCO 기반 데이터셋 공개

본 논문이 제시하는 MS COCOAI 데이터셋은 현재 이미지 진위 탐지 연구에서 가장 시급히 요구되는 ‘다양성’과 ‘규모’를 동시에 만족한다는 점에서 큰 의미를 가진다. 첫째, 기존 데이터셋들은 주로 단일 생성 모델이나 제한된 프롬프트 세트를 사용해 만든 이미지에 국한돼 있었으며, 이는 실제 현장에서 마주치는 다양한 AI 툴과의 격차를 초래한다. 반면 본 데이터셋은 Stable Diffusion 3·2.1·SDXL, DALL‑E 3, MidJourney v6 등 최신 모델을 모두 포함함으로써, 현재 시장에서 널리 사용되는 주요 생성

Computer Science Data Detection Computer Vision
제한된 의료 주석을 위한 스케일 인식 적응형 반지도 학습 네트워크

제한된 의료 주석을 위한 스케일 인식 적응형 반지도 학습 네트워크

SASNet은 의료 영상 분야에서 흔히 마주치는 라벨링 비용의 제약을 극복하고자 설계된 반지도 학습 프레임워크이다. 기존의 반지도 세그멘테이션 방법들은 주로 단일 스케일의 특징을 활용하거나, 라벨이 없는 데이터에 대해 단순히 일관성 손실을 적용하는 데 그쳤다. 이러한 접근법은 복잡한 해부학적 구조를 다양한 해상도에서 포착하기 어려워, 특히 작은 병변이나 경계가 흐릿한 영역에서 성능 저하를 보인다. SASNet은 두 개의 병렬 브랜치를 갖는다. 하나는 라벨이 충분히 제공된 소량의 데이터에 대해 전통적인 지도 학습을 수행하고, 다른 하

Image Processing Network Electrical Engineering and Systems Science
No Image

추론 모델의 ‘아하!’ 순간은 착각인가

이 논문은 최근 AI 커뮤니티에서 화제가 된 “추론 중 ‘아하!’ 순간”이라는 현상을 과학적으로 검증하려는 시도이다. 저자들은 먼저 기존 연구가 제시한 사례, 즉 DeepSeek‑R1‑Zero가 중간 단계에서 갑작스러운 전략 전환을 보이며 정답을 도출한다는 주장을 재현하려 했다. 이를 위해 1백만 개가 넘는 추론 트레이스를 수집하고, 각 트레이스에서 토큰 수준의 확률 변화, 내부 표현의 변동, 그리고 출력 정확도를 동시에 기록했다. 분석 대상은 자연어 질문‑답변, 수학 문제 풀이, 코딩 생성이라는 세 가지 도메인으로, 각각의 도메인

Computer Science Artificial Intelligence Model
텍스트투비디오 생성기 Sora의 암묵적 연관성을 정량화한 VEAT와 편향 완화 과제

텍스트투비디오 생성기 Sora의 암묵적 연관성을 정량화한 VEAT와 편향 완화 과제

본 논문은 텍스트투비디오 생성 모델이 사회적 편향을 어떻게 내재하고 재생산하는지를 정량적으로 밝히려는 시도로, 기존의 Implicit Association Test(IAT)와 이미지 기반 연관성 테스트를 비디오 임베딩에 적용한 점에서 학술적 의의가 크다. VEAT는 비디오 프레임들의 시각·음향 특징을 고차원 임베딩 공간에 매핑한 뒤, 목표 집단(예: 아프리카계 미국인, 유럽계 미국인)과 속성(pleasant, unpleasant) 사이의 거리 차이를 효과크기(d)로 측정한다. SC‑VEAT는 단일 카테고리(예: 특정 직업)와 두 집

Computers and Society Computer Science
VisNet 효율적인 사람 재식별을 위한 알파다이버전스 손실 특징 융합 동적 다중작업 학습

VisNet 효율적인 사람 재식별을 위한 알파다이버전스 손실 특징 융합 동적 다중작업 학습

VisNet은 현재 사람 재식별 분야에서 가장 큰 과제 중 하나인 “정확도와 연산 효율성 사이의 트레이드오프”를 해결하려는 시도로 눈에 띈다. 첫 번째 핵심 기여는 ResNet‑50의 네 단계(feature map)들을 순차적으로 결합하면서도 별도의 병렬 브랜치를 도입하지 않은 점이다. 이는 기존의 멀티‑스케일 접근법이 흔히 겪는 파라미터 폭증과 메모리 사용량 증가 문제를 크게 완화한다. 자동 주의(attention) 모듈이 각 스케일별 특징에 가중치를 부여함으로써, 저해상도에서 추출된 전역적인 형태 정보와 고해상도에서 얻어지는 세

Computer Vision Computer Science Learning
다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

Defensive M2S는 기존 가드레일 모델이 전체 대화 히스토리를 입력으로 받아야 하는 구조적 한계를 근본적으로 해결한다는 점에서 의미가 크다. 다중턴 대화는 일반적으로 토큰 수가 O(n²) 수준으로 급증하는데, 이는 특히 10턴 이상으로 길어지는 실제 서비스 시나리오에서 GPU 메모리와 연산 시간의 병목을 초래한다. 논문은 이를 ‘Multi‑turn to Single‑turn (M2S)’ 압축이라는 간단하지만 효과적인 변환 규칙으로 전환한다. 구체적으로, 각 턴의 핵심 발화만을 남기고, 대화 흐름을 유지하기 위해 하이픈(–),

Computer Science NLP Model
대형 언어 모델 사실 생성의 강인한 불확실성 정량화

대형 언어 모델 사실 생성의 강인한 불확실성 정량화

이 논문은 LLM의 ‘환각’ 문제를 불확실성 정량화라는 관점에서 접근한다는 점에서 의미가 크다. 기존의 불확실성 추정 기법—예를 들어 베이지안 신경망, MC‑Dropout, 엔삼블 방법—은 주로 정형화된 QA 데이터셋에서 검증되었으며, 질문이 의도적으로 혼동을 주는 형태일 때는 신뢰도 점수가 급격히 왜곡되는 한계를 보였다. 저자들은 이러한 한계를 극복하기 위해 ‘함정 질문(trap question)’이라는 새로운 평가 도구를 설계했는데, 여기에는 실제 존재하지 않는 인물명이나 허위 사실이 삽입되어 모델이 사실을 생성하도록 유도한다.

Computer Science NLP Model
양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

본 논문은 양자화가 대형 언어 모델(Large Language Model, LLM)의 자기설명(self‑explanations, SE) 능력에 미치는 영향을 체계적으로 조사한 최초의 연구라 할 수 있다. 기존 연구에서는 양자화가 모델의 추론 속도와 메모리 사용량을 크게 개선한다는 점에 초점을 맞추었지만, SE와 같이 모델 내부의 추론 과정을 외부에 설명하도록 요구되는 고차원 작업에 대한 영향은 간과되어 왔다. 이 점을 메우기 위해 저자들은 두 가지 SE 유형, 즉 자연어 설명(NLE)과 반사실 예시(counterfactual exa

Computer Science NLP Model
No Image

언어는 수학적 구조인가 의미장 이론과 언어게임의 대립

이 논문은 최근 대형 언어 모델(Large Language Models, LLM)의 급격한 성능 향상이 의미론 연구에 미치는 함의를 두 축으로 나누어 고찰한다. 첫 번째 축은 루트비히 비트겐슈타인의 후기 철학에 기반한 사회구성주의적 ‘언어게임’ 접근이다. 여기서는 의미가 화자 간의 관습적 상호작용과 사용 상황에 의해 형성된다고 보며, 어떠한 형식적 규칙도 의미를 완전히 설명할 수 없다고 주장한다. 두 번째 축은 저자가 제안한 ‘의미장 이론(Semantic Field Theory)’으로, 언어를 연속적인 의미 공간 안에서 서로 얽힌

Computer Science NLP
No Image

전문가 혼합 모델의 기하학적 정규화와 가중치·활성화 불일치

Mixture‑of‑Experts(MoE) 구조는 수백에서 수천 개의 전문가 중 일부만을 선택적으로 활성화함으로써 계산 비용을 크게 절감한다는 장점이 있다. 그러나 전문가들이 실제로 서로 다른 기능을 수행하도록 만들기 위해서는 “전문가 다양성”이 필수적이며, 이를 달성하기 위한 다양한 정규화 기법이 제안되어 왔다. 본 논문에서는 가장 직관적인 접근법 중 하나인 가중치 직교 손실을 적용하여 전문가 간의 기하학적 차이를 강제하고, 그 효과를 다각도로 평가하였다. 첫 번째 실험에서는 가중치 공간 중복도(MSO, Mean Subspace

Machine Learning Computer Science
코로나19 자연실험을 통한 분포변동 하 컨포멀 예측 성능 분석

코로나19 자연실험을 통한 분포변동 하 컨포멀 예측 성능 분석

이 논문은 컨포멀 예측이 실제 운영 환경에서 마주치는 ‘분포 변동(distribution shift)’에 얼마나 취약한지를 코로나19라는 전 세계적 충격을 이용해 실증적으로 보여준다. 연구자는 8개의 공급망 관련 태스크를 선정하고, 팬데믹 이전과 이후의 데이터 특성을 Jaccard 지수를 통해 정량화하였다. 흥미롭게도, Jaccard 지수가 거의 0에 가까워 특징 자체는 거의 변하지 않았음에도 불구하고, 예측 구간의 실제 커버리지는 0 %에서 86.7 %까지 극단적인 차이를 보였다. 이는 컨포멀 방법이 단순히 특징 분포의 변화를 감

Machine Learning Computer Science
No Image

팀 스포츠 전술에 의미론적 방법을 적용한다면? 축구 전술 모델링의 새로운 패러다임

이 논문은 의미론적 벡터 공간을 팀 스포츠 전술에 적용한다는 독창적인 아이디어를 제시함으로써, 기존 전술 분석 방법론과는 차별화된 학술적 가치를 제공한다. 첫째, 선수 개개인을 다차원 벡터로 모델링한다는 접근은 기존의 단순 통계 기반 평가를 넘어, 기술·신체·심리적 특성을 동시에 고려한 복합적인 특성 표현을 가능하게 한다. 특히, 심리적 변수(예: 경기 집중도, 스트레스 수준)를 수치화하여 벡터에 포함시키는 시도는 현재 스포츠 과학에서 아직 충분히 다루어지지 않은 영역이며, 전술적 의사결정에 인간적인 요소를 반영한다는 점에서 의미가

Computer Science Artificial Intelligence
No Image

희소 확률적 연합 구조 생성 베이지안 탐욕적 추구와 L1 완화

이 논문은 연합 구조 생성(CSG) 문제에 ‘가치가 관측을 통해 학습돼야 한다’는 새로운 전제를 도입함으로써 기존 연구와 차별화한다. 전통적인 CSG는 모든 가능한 연합에 대한 정확한 가치 함수가 주어졌다고 가정하고, 그 위에서 최적의 연합 분할을 찾는다. 그러나 실제 사회·경제 시스템에서는 개별 연합의 가치를 직접 측정하기 어렵고, 대신 여러 에피소드(예: 협상 라운드, 프로젝트 수행 결과)에서 얻은 총 보상만 관찰된다. 저자들은 이러한 상황을 ‘희소 선형 회귀’ 모델로 정형화한다. 즉, 한 에피소드의 총 보상 Yₜ는 소수(K)개

Computer Science Game Theory
No Image

다중 엔벨로프 이중 이진 분해로 극한 양자화 실현

이 논문은 대규모 언어 모델(LLM)의 극저비트 양자화에 있어 기존 이중 이진 분해(Double Binary Factorization, DBF)의 구조적 한계를 정확히 짚어낸다. DBF는 가중치를 부호 행렬과 스케일(엔벨로프) 행렬의 곱으로 표현하는데, 부호를 1비트로 고정하고 스케일을 실수값으로 두어 메모리 사용량을 크게 줄인다. 그러나 스케일 파라미터가 모든 랭크 성분에 동일하게 적용되면서, 모델이 표현할 수 있는 크기 변동 폭이 제한된다. 특히, 랭크‑R 분해에서 R이 커질수록 각 성분이 동일한 크기 프로파일을 공유하게 되므로

Machine Learning Computer Science
No Image

대규모 포토닉스 기반 AI 시스템을 향한 설계 자동화와 시스템 알고리즘 공동 탐색

이 논문은 포토닉스 기반 인공지능 가속기의 연구가 “디바이스‑레벨 혁신”에서 “시스템‑레벨 실용화” 단계로 전환되는 데 필요한 핵심 과제를 체계적으로 정리하고, 이를 해결하기 위한 통합 설계 흐름을 제시한다는 점에서 의미가 크다. 첫 번째 고려사항인 동적 텐서 연산 지원은 현재 AI 모델이 고정된 가중치 매트릭스만을 활용하는 전통적인 컨볼루션 가속기와는 근본적으로 다른 요구사항이다. 특히 Transformer와 같은 어텐션 메커니즘은 입력 시퀀스 길이에 따라 실시간으로 가중치 행렬을 재구성하고, 다중 헤드 연산을 병렬적으로 수행한다

System Physics
대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

이 논문은 대규모 언어 모델(LLMs)의 협업 능력을 향상시키기 위해 강화 학습을 통합한 새로운 프레임워크를 제시합니다. 이 프레임워크는 다중 에이전트 환경에서 전역적인 성능 최적화에 어려움을 겪는 LLMs의 한계를 극복하려고 합니다. 논문은 협업을 분산 부분可观测马尔可夫决策过程(Dec POMDP)的形式化,并采用集中训练与分散执行(CTDE)。这种方法通过引入组相对策略优化(GRPO),在训练过程中利用全局信号来共同优化代理策略,同时简化联合奖励以平衡任务质量、速度和协调成本。实验结果表明,在协作写作和编码基准测试中,该框架比单代理基线提高了3倍的任务处理速

Learning
모터 자동 게임 디자인을 위한 메커니즘 진화

모터 자동 게임 디자인을 위한 메커니즘 진화

MORTAR는 자동 게임 디자인 분야에서 ‘메커니즘’이라는 핵심 요소를 진화시키는 새로운 접근법을 제시한다는 점에서 학술적·실용적 의미가 크다. 기존 연구들은 주로 레벨 디자인이나 스토리 텔링을 자동화하는 데 초점을 맞추었으며, 게임 규칙 자체를 생성·조정하는 작업은 여전히 인간 디자이너의 전문 영역으로 남아 있었다. 본 시스템은 품질‑다양성(QD) 알고리즘을 활용해 ‘다양성’과 ‘품질’이라는 두 축을 동시에 최적화한다. 구체적으로, 메커니즘 후보군을 LLM(예: GPT‑4)에게 프롬프트로 제시해 자연어 기반 규칙을 생성하고, 이를

Computer Science Artificial Intelligence
반복 배포가 대형 언어 모델의 계획 능력을 크게 향상시킨다

반복 배포가 대형 언어 모델의 계획 능력을 크게 향상시킨다

본 논문은 “반복 배포(iterative deployment)”라는 새로운 모델 진화 프레임워크를 제시한다. 핵심 아이디어는 한 번 배포된 LLM이 실제 사용자와 상호작용하면서 생성한 출력물 중, 특히 계획 문제에 대한 답변을 인간이 검토·선별하여 고품질 데이터셋을 만든다. 이 데이터셋을 이용해 기존 모델을 파인튜닝하고, 다시 배포한다는 과정을 여러 차례 반복한다. 이렇게 하면 모델은 점진적으로 “사용자‑피드백‑데이터‑재학습”이라는 순환 고리를 통해 스스로 성능을 향상시킨다. 실험에서는 고전적인 플래닝 도메인(예: 블록스 월드, 로

Computer Science Artificial Intelligence
No Image

보이지 않는 작업 조건에서의 결함 진단을 위한 다중모달 교차도메인 혼합 융합 모델 및 이중 분리 기법

이 논문은 산업 현장에서 흔히 마주치는 ‘보이지 않는 작업 조건’이라는 문제를 핵심으로 삼아, 기존 결함 진단 모델들의 일반화 한계를 체계적으로 극복하고자 한다. 첫 번째 핵심 기여는 이중 분리(disentanglement) 프레임워크 이다. 여기서는 두 차원의 분리를 동시에 수행한다. 하나는 모달리티 차원 으로, 서로 다른 센서(예: 전류, 진동, 온도)에서 추출된 특징을 ‘모달리티 불변(modality‑invariant)’과 ‘모달리티 특화(modality‑specific)’로 나눈다. 이는 각 센서가 제공하는 고유한 물리적 정

Computer Science Artificial Intelligence Model
생각 흐름으로 보는 언어 모델링

생각 흐름으로 보는 언어 모델링

이 논문은 현재 가장 널리 사용되는 트랜스포머 기반 언어 모델이 “표면적” 토큰 연관성에 과도하게 의존한다는 근본적인 한계를 짚고 있다. 토큰 수준에서만 학습이 이루어지면 모델은 문맥 전체에 걸친 일관된 엔티티·사건 표현을 구축하지 못한다. 결과적으로 “역전 저주”(예: “아버지가 아들을 낳았다”와 “아들이 아버지를 낳았다”를 구분하지 못함)와 같은 관계 일반화 오류가 발생하고, 동일한 의미를 가진 다양한 표현을 학습하기 위해 불필요하게 많은 데이터가 요구된다. 인지과학 연구에서는 인간이 언어를 처리할 때 입력 스트림을 일시적인 표

Computer Science NLP Model
생성 기반 분류기가 편향된 단축 해결법을 넘어선다

생성 기반 분류기가 편향된 단축 해결법을 넘어선다

판별 모델은 입력 데이터를 직접 라벨에 매핑하는 방식으로 학습한다. 이 과정에서 모델은 훈련 데이터에 존재하는 통계적 패턴을 최적화하지만, 라벨과 직접적인 인과관계가 없는 특징—예를 들어 배경 색, 촬영 각도, 혹은 텍스트에서 흔히 나타나는 특정 단어—에 과도하게 의존할 위험이 있다. 이러한 스퓨리어스 특징은 훈련 데이터 내에서는 라벨과 높은 상관관계를 보이지만, 실제 배포 환경에서 사소한 분포 이동이 발생하면 급격히 사라진다. 결과적으로 판별 모델은 “단축(shortcut)”을 이용해 높은 정확도를 달성하지만, 일반화 능력은 크게

Machine Learning Computer Science
요양보호사 스케줄링에서 제약 추출 및 예외 제외에 관한 연구

요양보호사 스케줄링에서 제약 추출 및 예외 제외에 관한 연구

이 논문은 장기 요양 시설이라는 특수한 도메인에서 근무표 자동 생성의 실용성을 높이기 위해 ‘제약 템플릿 기반 추출’과 ‘예외 제외 메커니즘’이라는 두 축을 제시한다는 점에서 의미가 크다. 기존 스케줄링 연구는 주로 일반적인 제조·서비스 현장에 적용 가능한 제약 모델을 제시했으며, 실제 현장 적용 시 현장 담당자의 암묵적 지식을 반영하기 어려운 한계를 가지고 있었다. 요양보호사 현장은 교대 패턴, 연속 근무일, 직원 간 조합, 환자 특성 등 복합적인 제약이 존재하고, 이들 중 일부는 ‘예외’—예를 들어, 특정 직원의 임시 휴가나 급

Computer Science Artificial Intelligence
첫 원리에서 설계하는 신경‑기호 수학자

첫 원리에서 설계하는 신경‑기호 수학자

Mathesis 논문은 현재 LLM이 직면한 “논리적 일관성 부재”라는 근본적인 한계를 신경‑기호 하이브리드 접근법으로 해결하고자 하는 시도이다. 가장 큰 혁신은 수학적 지식을 고차원 하이퍼그래프 형태로 표현한다는 점이다. 전통적인 토큰‑시퀀스 표현은 변수와 연산자 사이의 복잡한 관계를 충분히 포착하지 못하지만, 하이퍼그래프는 노드(개념)와 하이퍼엣지(다중 관계)를 동시에 모델링함으로써 공리, 정의, 정리, 증명 단계 등을 자연스럽게 구조화한다. 이러한 구조 위에 얹어진 Symbolic Reasoning Kernel(SRK) 은 차

Computer Science Artificial Intelligence
No Image

테스트 시 인지 행동 이해와 조절

본 논문은 현재 LLM이 복잡한 문제 해결에 흔히 사용하는 CoT(Chain‑of‑Thought) 방식이 “과다 토큰 생성”과 “불안정한 사고 흐름”이라는 두 가지 주요 병목을 안고 있다는 점을 정확히 짚어낸다. 저자들은 먼저 대규모 모델(예: GPT‑NeoX, LLaMA)에서 추론 시 생성되는 토큰 시퀀스를 단계별로 분석하고, 각 단계가 어떤 인지적 역할을 수행하는지 메타데이터화한다. 이 과정에서 특히 ‘검증(verification)’ 단계와 ‘역추적(backtracking)’ 단계가 별도의 어텐션 헤드에 집중되어 있다는 사실을

Computer Science NLP Model
가중치 이상치 완화를 위한 데이터프리 회전 최적화 OptRot

가중치 이상치 완화를 위한 데이터프리 회전 최적화 OptRot

대형 언어 모델(LLM)은 수억에서 수조 개의 파라미터를 보유하고 있어, 실제 서비스 환경에서 메모리와 연산 비용을 크게 절감하기 위해 사후 양자화(post‑training quantization, PTQ)가 필수적이다. 그러나 LLM의 가중치와 활성값에는 “이상치(outlier)”라 불리는 극단적인 값들이 존재한다. 이러한 이상치는 양자화 단계에서 스케일링을 크게 잡아야 하므로, 전체 분포가 과도하게 압축되고 결과적으로 정밀도가 크게 떨어진다. 기존 연구는 이 문제를 해결하기 위해 회전(rotation) 기법을 도입했는데, 회전은

Computer Science Data Machine Learning
No Image

대규모 언어모델 사전지식을 활용한 전단계 인과 발견 프레임워크

HOLOGRAPH 논문은 인과 구조 학습이라는 오래된 문제에 최신 인공지능 기술을 수학적으로 결합한 시도라 할 수 있다. 전통적인 인과 발견 방법은 조건부 독립성 검정이나 구조적 방정식 모델을 기반으로 하지만, 관측 데이터만으로는 동일한 마르코프 등가 클래스 내의 여러 그래프를 구분하기 어렵다. 이 한계를 극복하기 위해 연구자들은 외부 지식, 특히 인간이 만든 지식 그래프나 도메인 전문가의 의견을 사전확률로 도입해 왔다. 최근에는 LLM이 방대한 텍스트 코퍼스를 학습함으로써 “인과적 직관”을 내포하고 있다는 점에 주목해, LLM을

Machine Learning Computer Science Model
덜 자원된 언어에서 자동 요약 접근법 비교

덜 자원된 언어에서 자동 요약 접근법 비교

이 논문은 자원이 부족한 언어(LRL, Less‑Resourced Languages)에서 자동 요약 기술의 현황과 한계를 체계적으로 조명한다. 먼저, 대형 언어 모델(LLM)의 제로샷 프롬프트 방식을 다양한 모델 크기(예: GPT‑3.5, LLaMA‑7B 등)와 함께 실험했는데, 파라미터 수가 비슷하더라도 사전 학습 데이터의 언어 다양성, 토크나이저 설계, 그리고 프롬프트 엔지니어링 차이에 따라 성능 편차가 크게 나타났다. 이는 LLM이 고자원 언어에 최적화된 구조를 가지고 있어, LRL에 대한 일반화 능력이 제한적임을 시사한다.

Computer Science NLP
No Image

병리학적 맥락 재보정 네트워크를 이용한 안질환 자동 인식

본 논문은 안과 영상 진단 분야에서 ‘병리학적 맥락’과 ‘전문가 경험’이라는 두 가지 인간 중심의 사전 정보를 딥러닝 모델에 체계적으로 통합하려는 시도를 제시한다. 먼저 제안된 Pathology Recalibration Module(PRM)은 두 단계로 구성된다. 첫 번째 단계인 픽셀‑단위 맥락 압축 연산자는 고해상도 안구 이미지에서 지역적 특징을 저차원 표현으로 압축함으로써 연산 효율성을 높이고, 동시에 병변이 나타나는 영역의 전반적인 구조적 정보를 보존한다. 두 번째 단계인 병리학적 분포 집중 연산자는 압축된 특징 맵을 기반으로

Computer Vision Computer Science Network
잠재 계획을 활용한 대형 언어 모델 추론

잠재 계획을 활용한 대형 언어 모델 추론

iCLP는 기존 “체인‑오브‑생각”(CoT) 접근법의 두 가지 한계를 동시에 해결하려는 시도이다. 첫 번째는 인간이 문제를 풀 때 텍스트로 명시적인 계획을 세우지 않더라도, 과거 경험에서 추출된 압축된 패턴을 무의식적으로 활용한다는 점이다. 이러한 암묵적 인지는 LLM이 직접 텍스트 계획을 생성할 때 발생하는 “환각”(hallucination) 문제를 회피할 수 있는 가능성을 제공한다. 두 번째는 다양한 도메인과 질문 형태에 대해 일관된 텍스트 계획을 설계하는 것이 비현실적이라는 점이다. iCLP는 명시적 계획을 먼저 수집하고, 이

Computer Science NLP Model
No Image

튜브형 리만 라플라스 근사: 베이지안 신경망의 효율적 불확실성 추정

본 연구는 베이지안 신경망(BNN)에서 라플라스 근사의 한계를 정확히 짚어낸 뒤, 리만 기하학을 도입해 이를 극복하려는 시도를 보여준다. 전통적인 라플라스 근사는 MAP(최대 사후 확률) 추정점 주변을 유클리드 거리 기반의 다변량 정규분포로 근사한다. 그러나 딥러닝 모델은 수백만 차원의 파라미터 공간에 복잡한 비선형 구조와 다중 대칭(예: 레이어 순열, 스케일 변환 등)를 가지고 있어, 손실 표면은 극도로 얇고 긴 골짜기 형태를 띤다. 이런 상황에서 유클리드 메트릭은 실제 곡률을 무시하고, 결과적으로 과도하게 축소된 혹은 과도하게

Computer Science Network Machine Learning
AI와 전통 건축의 만남: 이란 비둘기 탑을 중심으로

AI와 전통 건축의 만남: 이란 비둘기 탑을 중심으로

이 논문은 생성 AI 시스템이 건축물의 전통적인 디자인 요소와 그 의미를 어떻게 해석하고 재현하는지에 대한 깊이 있는 분석을 제공한다. 특히 이란의 비둘기 탑이라는 특정 사례를 통해 세 가지 주요 AI 모델, 즉 Midjourney v6, DALL•E 3, 그리고 Stable Diffusion XL (SDXL) 기반의 DreamStudio를 평가하고 있다. 연구는 참조적 단계에서 이미지를 직접적으로 재현하는 능력부터 시작하여, 적응적 단계에서는 주어진 정보에 따라 건축물의 특성을 어떻게 변형시키는지까지 살펴본다. 마지막으로 추측적

< 분야별 논문 현황 (Total: 791) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
11

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키