KOINEU Logo
No Image

인공지능 시스템의 신뢰성 보장: 통합 관리 아키텍처로 향상된 책임성

본 논문은 AI 시스템의 책임성과 신뢰성을 높이기 위한 통합 관리 아키텍처를 제시한다. 기존의 AI는 주로 AI 간 조정에 초점을 맞추었지만, 이 연구에서는 전체 AI 구성 요소와 인간 참여자를 포괄하는 보다 포괄적인 접근 방식을 제안하고 있다. 특히 '신뢰할 수 있는 조정 AI를 위한 10개 기준'은 이러한 목표를 달성하기 위해 중요한 역할을 한다. 이 논문의 핵심 개념 중 하나는 '통합 관리 아키텍처'이다. 이는 인간 입력, 의미론적 일관성, 감사 및 증거의 정합성을 통합한 단일 관리 패널로 구성되어 있다. 이러한 접근 방식은

축구 마스터: 통합 축구 비전 모델

축구 마스터: 통합 축구 비전 모델

축구 마스터는 축구 관련 이미지와 동영상 자료를 활용하여 다양한 축구 관련 작업을 수행할 수 있는 통합 비전 모델입니다. 이 모델은 주석 생성, 감지, 추적, 분류 등과 같은 여러 가지 축구 이해 작업에 적용될 수 있습니다. SoccerMaster는 축구 콘텐츠의 다양성을 활용함으로써, 축구 관련 데이터로부터 얻을 수 있는 정보를 최대한 활용하여 보다 정확하고 효과적인 결과를 도출합니다. 이러한 모델은 축구 분석, 선수 평가, 경기 전략 등 다양한 영역에서 활용될 수 있으며, 특히 실시간 주석 생성과 같은 빠른 의사결정이 필요한 상

Model
트랜스포머 기반의 전역 다목적 최적화: TAMO로 과학적 발견 가속화

트랜스포머 기반의 전역 다목적 최적화: TAMO로 과학적 발견 가속화

이 논문은 트랜스포머 아키텍처를 활용한 TAMO라는 새로운 다목적 최적화 방법을 제시합니다. 전통적으로, 다목적 베이지안 최적화는 각 문제에 맞게 대리 모델과 획득 함수를 특별히 선택해야 하며, 이 과정은 시간과 자원을 많이 소모하는 것으로 알려져 있습니다. 특히 병렬 또는 시간 민감한 환경에서는 이러한 재적합 오버헤드가 큰 문제입니다. TAMO는 이러한 제약을 극복하기 위해 트랜스포머를 사용하여 다양한 입력 및 목표 차원에서 작동할 수 있도록 설계되었습니다. 이를 통해 TAMO는 사전 학습된 모델을 새로운 문제에 적용하는 데 필요

Stable Diffusion에서 색채가 잠재 공간에 어떻게 인코딩되는가

Stable Diffusion에서 색채가 잠재 공간에 어떻게 인코딩되는가

본 논문은 최신 확산 모델인 Stable Diffusion의 내부 표현 메커니즘을 색채라는 구체적인 지각 속성에 초점을 맞추어 파헤친다. 연구자는 먼저 색상과 형태가 명확히 구분된 합성 이미지 데이터셋을 제작하였다. 이 데이터셋은 색상만을 변형시키는 버전과 형태만을 변형시키는 버전으로 구성돼 있어, 각 속성이 잠재 공간에 어떻게 매핑되는지를 독립적으로 측정할 수 있다. 잠재 표현을 분석하기 위해 저자는 Stable Diffusion의 UNet 인코더 단계에서 추출한 중간 특징 맵을 벡터화하고, 전체 데이터셋에 대해 주성분 분석(PC

Model
데이터 불균형이 모델 서브그룹 성능에 미치는 영향과 잠재공간 분리 가설

데이터 불균형이 모델 서브그룹 성능에 미치는 영향과 잠재공간 분리 가설

본 연구는 인구통계학적 다양성을 반영한 데이터셋 구축이 머신러닝 모델의 공정성과 일반화에 핵심적인 역할을 한다는 전제에서 출발한다. 전통적으로는 각 서브그룹이 훈련 데이터에 균등하게 포함될 때 모델이 모든 집단에 대해 최적의 성능을 보인다고 믿어 왔으며, 이를 위해 데이터 수집 단계에서 ‘밸런싱(balancing)’ 작업이 필수적이라고 여겨졌다. 그러나 최근 몇몇 실험에서는 오히려 불균형한 데이터가 특정 서브그룹의 성능을 끌어올리거나, 전체 서브그룹이 훈련에 전혀 포함되지 않아도 해당 서브그룹에 대한 예측 정확도가 크게 저하되지 않

디스크 그래프에서 근사 최대 클리크 찾기: 단위 및 다중 반경 경우

디스크 그래프에서 근사 최대 클리크 찾기: 단위 및 다중 반경 경우

이 논문은 디스크 그래프에서 최대 클리크 문제에 대한 근사 알고리즘을 제시하며, 특히 단위 디스크 그래프와 다중 반경 디스크 그래프의 경우를 고려하고 있습니다. 이 문제는 그래프 이론에서 중요한 위치를 차지하며, 특히 통신 네트워크나 센서 네트워크와 같은 실제 시스템에서 활용될 수 있는 중요한 응용 분야입니다. 논문은 단위 디스크 그래프에 대한 알고리즘을 개선하여 O(n/ε^2) 기대 시간 내에 (1 ε) 근사 최대 클리크를 찾는 방법을 제시합니다. 이는 기존의 정확한 해결책보다 훨씬 빠르며, 특히 큰 그래프에서 중요한 성능 개선입

복소수스텝적분변환 고정밀수치미분과스펙트럼분석을위한새로운프레임워크

복소수스텝적분변환 고정밀수치미분과스펙트럼분석을위한새로운프레임워크

본 논문은 기존의 Hilbert 변환이 신호의 위상 정보를 추출하고 미분 연산과 연결된다는 사실을 출발점으로 삼아, 복소수 스텝 차분법(complex‑step differentiation)의 핵심 아이디어를 적분 변환 형태로 확장한다는 점에서 혁신적이다. 복소수 스텝을 실수와 허수 두 축으로 독립적으로 조정함으로써, 변환 과정에서 발생할 수 있는 수치 오차를 최소화하고 동시에 고주파 잡음을 효과적으로 억제한다는 메커니즘은 특히 스펙트럼 기반 수치 미분에서 큰 장점을 제공한다. 스펙트럼 분석에서는 CSIT가 입력 신호의 푸리에 스펙트

No Image

큰 언어 모델의 추론 메커니즘: 확률적 기반과 인간 추론의 유사성

이 논문은 대형 언어 모델(LLMs)에서 토큰 완성 기반의 추론 메커니즘을 탐구하며, 특히 이러한 LLMs이 학습된 연관성을 통해 생성되는 텍스트와 인간의 추측적 추론(abductive reasoning) 사이의 유사성을 분석한다. 논문은 LLMs가 직접적인 진리나 의미를 기반으로 하지 않고도 가능성이 있는 가설을 제시하고, 상식적 추론을 시뮬레이션하며, 설명적인 답변을 제공하는 방식을 통해 그들의 출력이 실제 추측적 추론과 유사하게 보일 수 있다는 점에 주목한다. 이러한 모델의 확률적 핵심과 애플리케이션에서 나타나는 추측적 추론의

Model
폐암 사망률 예측을 위한 기계학습 모델의 성능 분석

폐암 사망률 예측을 위한 기계학습 모델의 성능 분석

이 연구는 미국에서 폐암(LC) 사망률 예측에 기계학습 모델의 적용을 통해 얻은 결과를 보고하고 있다. 특히, 랜덤 포레스트(RF), 그래디언트 부스팅 회귀(GBR), 그리고 선형 회귀(LR) 세 가지 모델을 사용하여 LC 사망률 예측 성능을 평가하였다. 연구에서 RF 모델이 GBR과 LR보다 우수한 성능을 보여주었으며, R squared 값 41.9%, RMSE 12.8을 달성했다는 점은 주목할 만하다. SHAP 분석을 통해 흡연률이 가장 중요한 예측 변수로 나타났고, 이어 집값 중앙값과 히스패닉 인구 비율이 중요하게 작용한다는

Learning
능동 주행과 자율 주행에서의 뇌파 기반 정신 상태 비교 연구

능동 주행과 자율 주행에서의 뇌파 기반 정신 상태 비교 연구

본 논문은 운전 상황에 따라 뇌파 신호가 어떻게 달라지는지를 정량적으로 규명함으로써, 인간‑차량 인터페이스 설계에 중요한 통찰을 제공한다. 실험 설계는 31명의 피험자를 대상으로 동일한 운전 과제를 능동 주행과 자율 주행 두 조건에서 수행하게 하여, 과제 복잡도(저·중·고)별로 EEG 데이터를 수집하였다. 데이터 전처리 단계에서는 눈깜빡임·근육 잡음 등을 ICA 기반으로 제거하고, 64채널 시스템을 이용해 전두엽·두정엽·후두엽 등 주요 영역의 전력 스펙트럼을 분석하였다. 인지 부하와 피로는 주파수 밴드 파워(θ, α, β)와 복합

핸드 오브젝트 그립을 위한 3D 포즈 추정 CLIP과 DINOv2 시각 모델 비교

핸드 오브젝트 그립을 위한 3D 포즈 추정 CLIP과 DINOv2 시각 모델 비교

본 연구는 최근 급부상한 비전 파운데이션 모델(VFM)과 비전‑언어 모델(VLM)이 로봇 조작, 특히 손‑물체 그립 상황에서 6D 객체 포즈 추정에 어떻게 다른 강점을 발휘하는지를 체계적으로 비교한다. CLIP은 대규모 이미지‑텍스트 쌍으로 사전 학습된 멀티모달 모델로, 언어와 시각 정보를 정렬함으로써 “컵”, “핸들” 등 객체의 의미적 카테고리를 강력히 인식한다. 이러한 의미적 이해는 복잡한 장면에서 객체를 정확히 구분하고, 인간이 제공하는 자연어 명령과의 매핑을 용이하게 만든다. 그러나 CLIP의 특징은 주로 전역적인 토큰 임베

Model
형식적 자원 경계 인증을 위한 합성 프레임워크

형식적 자원 경계 인증을 위한 합성 프레임워크

이 논문은 프로그램의 자원 사용을 정형적으로 검증하려는 연구 흐름에 중요한 기여를 한다. 가장 눈에 띄는 점은 자원 경계를 추상 격자 (L, ⪯, ⊕, ⊔, ⊥) 로 일반화함으로써, 전통적인 시간 복잡도 분석을 넘어 메모리, 가스, 혹은 도메인‑특화 비용까지 하나의 형식 체계 안에서 다룰 수 있게 만든 것이다. 이러한 추상화는 기존의 비용 모델이 서로 독립적으로 설계되는 문제를 해결하고, 동일한 타입 시스템을 재사용해 다양한 비용을 동시에 추론할 수 있게 한다는 실용적 장점을 제공한다. 논문이 도입한 등급 가능성 모달리티 □ r 은

Analysis
3D 역설계 프레임워크 물리 인식 잠재공간 탐색과 위상 보존 정밀화

3D 역설계 프레임워크 물리 인식 잠재공간 탐색과 위상 보존 정밀화

본 연구는 3차원 역설계 분야에서 가장 근본적인 병목 현상인 “설계 공간의 폭발적 증가” 문제를 근본적으로 해결하려는 시도로 평가할 수 있다. 전통적인 그리드 탐색이나 베이즈 최적화와 같은 전통적 방법은 차원 수가 늘어날수록 계산 복잡도가 지수적으로 증가해 실용적인 적용이 어려워진다. 최근 딥러닝 기반 접근법은 잠재 공간을 이용해 탐색 차원을 크게 축소했지만, 대부분 2D 투영을 사용하거나 기존 3D 모델을 미세 조정하는 방식에 머물러 실제 3D 형태의 자유로운 생성 능력을 제한한다. 이러한 한계는 특히 복합 물리 현상이 얽힌 설계

청취 선택성을 측정하는 SH 벤치와 프라이버시 파인튜닝

청취 선택성을 측정하는 SH 벤치와 프라이버시 파인튜닝

본 논문은 오디오 기반 대형 언어 모델이 실제 서비스 환경에서 마주하게 되는 ‘부수 청취’ 문제를 정량화하고 해결책을 제시한다는 점에서 매우 시의적절하다. 기존 연구들은 주로 모델의 전반적인 음성 인식·이해 능력에 초점을 맞추었으며, 주변 사람들의 음성을 무심코 수집·처리하는 프라이버시 위험을 간과해 왔다. 이러한 공백을 메우기 위해 저자들은 두 가지 핵심 기여를 한다. 첫째, SH‑Bench라는 새로운 벤치마크를 구축했다. 이 벤치마크는 3,968개의 다중 화자 오디오 믹스를 포함하고, 실제 현장 녹음과 합성 데이터를 균형 있게

동적 프로그래밍을 이용한 리더 팔로워 일반합 스토케스틱 게임 최적 정책 합성

동적 프로그래밍을 이용한 리더 팔로워 일반합 스토케스틱 게임 최적 정책 합성

본 연구는 기존의 리더‑팔로워 스토케스틱 게임 이론에 중요한 구조적 진전을 제공한다. 일반합 게임은 두 에이전트가 서로 다른 보상 함수를 갖는 상황을 의미하는데, 여기서 리더는 자신의 정책을 사전에 고정하고 팔로워는 그에 대한 최적 반응을 선택한다. 이러한 비대칭 약속 구조는 실세계의 보안 배치, 네트워크 방어, 자원 할당 등에서 흔히 나타난다. 기존 접근법은 주로 완전 정보 혹은 제한된 정책 공간을 가정하고, 팔로워의 반응을 근사하거나 제한된 형태의 균형만을 계산했다. 그러나 이러한 방법은 신뢰 가능한 집합(credible set

메타데이터 강화로 기업용 RAG 검색 성능 극대화

메타데이터 강화로 기업용 RAG 검색 성능 극대화

본 논문은 기업용 지식 관리 시스템에서 흔히 겪는 “정보 검색 병목” 문제를 해결하기 위해 메타데이터를 자동으로 생성·활용하는 새로운 파이프라인을 제안한다. 먼저, 대형 언어 모델을 이용해 각 문서 조각에 대해 주제, 키워드, 요약, 관계 등 다차원 메타데이터를 추출한다. 이러한 메타데이터는 기존 텍스트 임베딩에 추가적인 시그널을 제공함으로써, 동일한 의미를 공유하는 문서 간의 거리 계산을 보다 정교하게 만든다. 청킹 전략은 세 가지로 구분된다. ① 의미 기반 청킹은 문맥적 유사성을 기준으로 문서를 동적으로 분할해 의미 단위가 보존

Framework Data System
브레이드 군 Hecke 표현과 HOMFLY PT 다항식 효율적 계산

브레이드 군 Hecke 표현과 HOMFLY PT 다항식 효율적 계산

이 논문은 현대 결절 이론과 계산 복잡도 이론을 연결하는 교량 역할을 한다. 핵심 아이디어는 Hecke 대수의 표현론적 구조가 브레이드 군의 원소를 행렬로 변환할 때 발생하는 연산적 강직성을 이용해, 기존 구현보다 훨씬 빠른 계산 루틴을 만든다는 점이다. 저자들은 먼저 브레이드 군 Bₙ의 생성자 σᵢ에 대해 Hecke 대수 Hₙ(q) 의 표준 표현을 명시하고, 이때 발생하는 교환 관계와 제곱 관계를 이용해 행렬 곱셈의 차원을 최소화한다. 특히, Garside 정규형을 활용해 브레이드 단어를 최소 길이의 정규 형태로 변환함으로써 중복

트리폭을 보존한 3‑다양체 삼각분할의 변환과 퀀텀 불변량의 고정‑파라미터 알고리즘

트리폭을 보존한 3‑다양체 삼각분할의 변환과 퀀텀 불변량의 고정‑파라미터 알고리즘

이 논문은 3‑다양체 위상학에서 가장 실용적인 데이터 구조인 삼각분할을 다루면서, 그래프 이론의 핵심 개념인 트리폭을 중심으로 알고리즘적 효율성을 극대화한다는 점에서 큰 의미를 가진다. 트리폭은 그래프가 트리와 얼마나 유사한지를 정량화하는 파라미터이며, 트리폭이 작을수록 동적 계획법이나 색칠 알고리즘 같은 전통적인 FPT 기법을 적용하기 용이하다. 기존 연구에서는 삼각분할 자체의 트리폭을 이용해 다양한 위상학적 문제(예: 매니폴드 동형판별, 코흐라 복합체 계산 등)를 FPT로 해결했지만, 히어로드 분할이라는 전혀 다른 표현으로 변환

확산 기반 통계 다운스케일링으로 고해상도 날씨 예보 구현

확산 기반 통계 다운스케일링으로 고해상도 날씨 예보 구현

본 연구는 수치예보 분야에서 고해상도 예보를 실시간으로 제공하기 위한 핵심 기술인 통계적 다운스케일링을 딥러닝 기반 확산 모델에 적용한 점에서 큰 의의를 가진다. 기존의 CorrDiff 프레임워크는 주로 표면 변수와 제한된 지역에 초점을 맞추었으나, 본 논문은 적용 영역을 약 40배 확대하여 중국 전역을 포괄하고, 6개의 기압 레벨에 해당하는 고층 변수까지 포함함으로써 모델의 일반화 능력을 크게 강화하였다. 이는 대기 현상이 수직적으로도 복잡하게 얽혀 있음을 고려한 설계로, 특히 강수·대류·제트 스트림 등 고층 동역학을 정확히 재현

Model
희소 사전학습이 드러내는 신경망 표현의 다중 의미와 식별 불가능성

희소 사전학습이 드러내는 신경망 표현의 다중 의미와 식별 불가능성

이 논문은 최근 인공지능 모델이 복잡한 개념을 어떻게 내부 표현에 담는지를 탐구하는 기계적 해석(mechanistic interpretability) 분야의 핵심 문제에 접근한다. 기존 연구들은 신경망이 의미 있는 개념을 고차원 표현 공간의 선형 방향으로 저장하고, 여러 개념이 동일한 뉴런 집합에 겹쳐서(superposition) 나타난다고 주장한다. 이러한 현상을 해소하기 위해 연구자들은 희소 사전학습(Sparse Dictionary Learning, SDL)이라는 방법론을 도입했으며, 여기에는 희소 자동인코더(sparse aut

Learning
AI 생성 이미지와 허위 정보의 확산 메커니즘 분석

AI 생성 이미지와 허위 정보의 확산 메커니즘 분석

본 논문은 AI‑생성 이미지와 허위 정보가 소셜 미디어, 특히 Reddit이라는 포럼 기반 플랫폼에서 어떻게 확산되는지를 정량적으로 규명한 최초의 대규모 연구로 평가할 수 있다. 연구자는 이념적 스펙트럼이 넓은 다섯 개 서브레딧을 선정함으로써, 좌파·우파·중도·대안·기술 중심 커뮤니티 등 다양한 정치·사회적 배경을 포괄하였다. 데이터 수집 단계에서는 2022‑2024년 사이에 게시된 1백만 건 이상의 포스트와 그에 연결된 재게시(cascade) 데이터를 크롤링했으며, 각 포스트에 포함된 이미지가 AI‑생성 여부를 판별하기 위해 최신

동작 확산 모델의 표현 방식과 손실 함수 선택이 성능에 미치는 영향에 대한 체계적 분석

동작 확산 모델의 표현 방식과 손실 함수 선택이 성능에 미치는 영향에 대한 체계적 분석

본 논문은 최근 급부상하고 있는 인간 동작 합성용 확산 모델의 핵심 설계 요소인 ‘동작 표현 방식’과 ‘손실 함수’를 체계적으로 검증한 점에서 학술적·실용적 의의가 크다. 먼저, 저자는 기존 연구에서 제안된 6가지 대표적인 동작 표현(예: 관절 각도, 관절 위치, 회전 행렬, 쿼터니언, 속도·가속도 기반 표현, 그리고 혼합형 표현)을 동일한 MDM 기반 프레임워크에 적용해 비교하였다. 이때 사용된 평가지표는 흔히 쓰이는 Frechet Inception Distance(FID)와 Diversity Score 등으로, 품질과 다양성을

Model
시각언어모델의 발화감정 모호성 해소와 심리대화 이해를 위한 다중수준 인사이트 네트워크

시각언어모델의 발화감정 모호성 해소와 심리대화 이해를 위한 다중수준 인사이트 네트워크

본 논문은 인간 대화의 비언어적 단서를 시각‑언어 모델에 통합하려는 시도 중 가장 포괄적인 접근법이라 할 수 있다. 첫 번째 문제인 ‘발화‑감정 모호성’은 입술 움직임이 감정 표현과 겹쳐 보이는 현상으로, 기존 VLM이 텍스트와 이미지 간의 연관성을 학습할 때 이중 의미를 구분하지 못해 심리적 추론에 오류를 일으킨다. MIND는 이러한 모호성을 해결하기 위해 계층적 구조를 채택하고, 각 레이어에서 시간적 특징 분산을 계산해 변동성이 낮은(즉, 감정과 무관한) 입술 패턴을 억제한다. 이 ‘상태 판단’ 모듈은 기존의 단순 attenti

Analysis Model
시간 영역 조건부 생성 모델을 이용한 지진 강진 합성 및 현장 특성 학습

시간 영역 조건부 생성 모델을 이용한 지진 강진 합성 및 현장 특성 학습

본 논문은 지진공학 분야에서 현장별 강진 기록을 인공적으로 생성할 수 있는 새로운 데이터‑드리븐 모델을 제시한다는 점에서 큰 의미를 가진다. 기존의 강진 합성 방법은 주로 스펙트럼 기반 혹은 물리‑기반 시뮬레이션에 의존했으며, 현장 특성을 충분히 반영하기 위해서는 복잡한 파라미터 튜닝이 필요했다. 반면 본 연구는 시간 영역에서 직접 가속도 신호를 다루는 TimesNet‑Gen을 도입함으로써, 현장별 고유의 “잠재적 병목”(latent bottleneck)이라는 작은 차원의 임베딩을 통해 현장 특성을 압축하고 재현한다. 이는 현장마다

Learning
작은 건물 모델을 활용한 방 레이아웃 자동 생성 혁신

작은 건물 모델을 활용한 방 레이아웃 자동 생성 혁신

본 논문은 건축 설계 자동화라는 실용적 과제에 트랜스포머 기반의 시퀀스‑투‑시퀀스 모델을 적용한 점에서 의미가 크다. 기존 연구들은 주로 2D 평면도나 3D 모델을 직접 입력으로 사용하거나, 규칙 기반 시스템에 의존해 레이아웃을 생성하였다. 그러나 이러한 방식은 복잡한 공간 제약을 충분히 반영하기 어렵고, 데이터 요구량이 높으며, 일반화 능력이 제한적이다. SBM은 ‘룸 엔벨로프’라는 최소한의 입력만으로도 방 내부의 가구 배치, 동선, 기능 구역을 동시에 고려한 레이아웃을 생성한다는 점에서 입력 효율성이 뛰어나다. 모델 아키텍처는

의료 대화형 AI 안전성 향상을 위한 반복적 사후 정렬 프레임워크

의료 대화형 AI 안전성 향상을 위한 반복적 사후 정렬 프레임워크

본 논문은 의료 현장에서 LLM 기반 대화형 보조 시스템이 직면한 두 가지 핵심 과제—‘위험한 요청에 대한 과잉 순응’과 ‘무해한 요청에 대한 과잉 거부’를 동시에 해결하고자 하는 시도를 담고 있다. 이를 위해 저자들은 기존 사후 정렬(Post‑Deployment Alignment) 접근법에 Kahneman‑Tversky Optimization(KTO)과 Direct Preference Optimization(DPO)을 결합한 새로운 프레임워크를 설계하였다. KTO는 인간의 인지 편향을 모델링해 위험 신호에 대한 민감도를 조절하고,

비디오만으로 공간 인지와 행동 계획을 구현하는 비디오포스페이셜

비디오만으로 공간 인지와 행동 계획을 구현하는 비디오포스페이셜

VIDEO4SPATIAL은 최근 비디오 기반 인공지능 연구에서 눈에 띄는 전환점을 제공한다. 기존 연구들은 주로 RGB‑D, 포즈 추정, 혹은 3D 메쉬와 같은 다중 모달리티를 결합해 공간 정보를 보강했지만, 이 논문은 순수 비디오 프레임만으로 동일하거나 그 이상의 성능을 달성한다는 점에서 혁신적이다. 핵심은 두 가지 설계 선택에 있다. 첫째, 데이터 큐레이션 단계에서 ‘시공간 일관성’과 ‘다양한 시점 전이’를 강조한 고품질 시퀀스를 선별함으로써 모델이 자연스러운 움직임과 물체 변화를 학습하도록 유도했다. 둘째, 프레임워크 내부에

스파크 단계별 검증을 활용한 참조 없는 프로세스 보상 모델 학습

스파크 단계별 검증을 활용한 참조 없는 프로세스 보상 모델 학습

본 논문은 강화학습(RL)에서 핵심적인 보상 설계 문제를 새로운 관점에서 해결한다. 전통적인 PRM은 단계별 정답 레퍼런스나 인간 주석에 의존해 학습 데이터를 구축한다. 그러나 이러한 데이터는 비용이 많이 들고, 특히 수학·과학·코드와 같이 정답이 복잡하거나 존재하지 않을 때는 실용성이 떨어진다. SPARK는 이 한계를 “생성‑검증” 루프를 통해 극복한다. 첫 번째 단계에서 생성기 모델은 프롬프트에 따라 다채로운 풀이 경로를 생성한다. 여기서 중요한 점은 다양성을 확보하기 위해 온도 조절, 샘플링 기법 등을 활용해 다수의 후보 풀이

Learning
에너지 수율을 극대화하는 차세대 디지털 트윈 솔루션

에너지 수율을 극대화하는 차세대 디지털 트윈 솔루션

본 논문은 태양전지 연구에서 가장 실용적인 목표 중 하나인 연간 에너지 수율(EY) 최적화를 위한 통합 시뮬레이션 프레임워크를 제시한다. 기존의 계산 접근법은 광학, 전기, 열, 재료 과학 등 각각의 분야를 별도로 다루는 경우가 많아, 실제 현장 적용 시 발생하는 복합적인 변수들을 동시에 고려하기 어렵다. 이러한 한계를 극복하기 위해 저자들은 ‘차별 가능한 디지털 트윈(Differentiable Digital Twin)’이라는 개념을 도입하였다. 디지털 트윈은 물리적 시스템을 가상 공간에 정밀히 복제하는 기술이며, 여기서 차별 가능

프리리얼2i 사전 학습 실수형 모델을 복소수 형태로 변환한 초저비트 양자화

프리리얼2i 사전 학습 실수형 모델을 복소수 형태로 변환한 초저비트 양자화

Fairy2i 논문은 현재 LLM 양자화 연구에서 가장 중요한 두 가지 문제—메모리·연산 비용 절감과 기존 사전 학습 모델의 재활용—를 동시에 해결하려는 시도로 평가할 수 있다. 첫 번째 핵심 기여는 “실수형 레이어와 광선형 복소수 매핑 사이의 손실 없는 수학적 동등성”을 증명한 점이다. 기존의 복소수 신경망은 실수와 허수 성분을 별도로 학습해야 하는 구조적 제약이 있었으며, 이는 사전 학습된 실수형 가중치를 그대로 옮겨올 수 없게 만들었다. 저자들은 넓게 정의된 복소수 선형 연산(광선형 변환)을 이용해 실수 가중치를 두 개의 실수

LLM 기반 에이전트 프레임워크 현황과 개발자 요구 분석

LLM 기반 에이전트 프레임워크 현황과 개발자 요구 분석

본 논문은 LLM(대형 언어 모델) 기반 에이전트 프레임워크라는 비교적 새로운 연구 영역에 대한 포괄적인 실증 조사를 수행했다는 점에서 학술적·실무적 의미가 크다. 첫 번째 강점은 데이터 수집 규모이다. 1,575개의 실제 오픈소스 프로젝트와 8,710개의 개발자 토론을 메타데이터로 활용함으로써, 단순히 문헌 조사에 머무르지 않고 현장 실무에서 발생하는 구체적인 문제와 사용 패턴을 포착했다. 특히 10개의 대표 프레임워크를 선정하는 과정에서 ‘별(star)’·‘포크(fork)’·‘활동성’ 등 객관적인 지표와 함께 토론 내용의 질적

Framework
뇌파로부터 제스처를 재구성하는 새로운 딥러닝 프레임워크

뇌파로부터 제스처를 재구성하는 새로운 딥러닝 프레임워크

본 논문은 뇌 영상(fMRI)과 언어, 그리고 몸짓(gesture)이라는 세 가지 서로 다른 모달리티 사이의 매핑을 직접 학습하기 어려운 현실적인 문제를 창의적으로 해결한다는 점에서 학술적 의의가 크다. 첫 번째 핵심은 ‘비연계 데이터’를 활용한다는 점이다. 기존의 뇌‑이미지 혹은 뇌‑언어 재구성 연구는 fMRI와 목표 출력(이미지, 텍스트) 사이에 1:1 매칭이 보장된 데이터셋을 전제로 한다. 그러나 뇌와 동시에 기록된 제스처 데이터는 실험 설계상의 제약과 비용 때문에 거의 존재하지 않는다. 저자들은 이러한 제약을 우회하기 위해

단답형 구성형 질문 자동 채점 근접 데이터 활용 프레임워크

단답형 구성형 질문 자동 채점 근접 데이터 활용 프레임워크

본 연구가 다루는 핵심 문제는 ‘구성형 짧은 답변 채점’이라는 교육 현장의 난제이다. 전통적인 자동 채점 시스템은 객관식처럼 정답이 명확히 정의된 경우에만 높은 정확도를 보이며, 자유 서술형 답변은 표현 다양성, 어휘 선택, 문맥적 의미 등 복합적인 변수를 포함한다. 따라서 사전 정의된 루브릭 없이도 정확히 채점하려면 방대한 학습 데이터와 정교한 의미 이해가 필요하다. 저자들은 이러한 난점을 극복하기 위해 ‘근접 데이터(near‑domain data)’라는 개념을 도입한다. 이는 동일하거나 유사한 주제·난이도의 과거 시험 문항과 학

Data
모듈형 트랜스듀서 기반 세계 모델 분해 프레임워크

모듈형 트랜스듀서 기반 세계 모델 분해 프레임워크

이 논문이 제시하는 핵심 아이디어는 ‘트랜스듀서’를 이용해 세계 모델을 모듈화하고, 그 모듈들을 역으로 분해함으로써 병렬 처리와 해석 가능성을 동시에 확보한다는 점이다. 트랜스듀서는 관측·행동·보상 등 복합적인 상호작용을 하나의 입력‑출력 관계로 추상화한 구조로, POMDP(부분 관측 마코프 결정 과정)를 일반화한다. 기존 연구에서는 여러 트랜스듀서를 순차적으로 연결해 복잡한 시스템을 구성하는 ‘합성’ 방법이 주로 다루어졌으며, 이는 설계 단계에서는 직관적이지만 실제 운용 단계에서는 전체 모델이 거대해져 연산 비용이 급증하고, 내부

Model
스페이시오템포럴 피라미드 플로우를 활용한 효율적 기후 에뮬레이션

스페이시오템포럴 피라미드 플로우를 활용한 효율적 기후 에뮬레이션

본 논문은 기후 과학과 머신러닝이 교차하는 최전선에서, 기존 생성 모델이 갖는 근본적인 한계를 뛰어넘는 혁신적인 프레임워크를 제시한다. 현재 대부분의 기후 에뮬레이션은 고해상도 물리 기반 모델을 직접 실행하거나, 저해상도 통계 모델에 의존한다. 전자는 계산 비용이 천문학적으로 높고, 후자는 복잡한 비선형 상호작용을 충분히 포착하지 못한다. 특히, 날씨 수준의 자기회귀 방식은 시간 단계마다 순차적으로 샘플링해야 하므로 장기 시뮬레이션(수십 년~수백 년)에서는 시간 복잡도가 선형적으로 증가한다. 이러한 구조적 제약은 비정상적인 외부 강

시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

본 논문은 현대 센서 네트워크가 직면한 두 가지 근본적인 한계, 즉 측정 포인트의 희소성 및 시뮬레이션 모델의 불완전성을 동시에 해결하려는 시도로서, 머신러닝 기반 데이터 동화 프레임워크 DA‑SHRED 를 제시한다. 기존 데이터 동화 기법은 주로 칼만 필터, 변분 동화, 혹은 최근의 딥러닝 기반 접근법에 의존해 왔으며, 이들은 고차원 상태 공간을 직접 다루는 경우 계산 비용이 급격히 증가하거나, 물리적 제약을 충분히 반영하지 못한다는 문제점을 안고 있다. DA‑SHRED 는 이러한 문제점을 회피하기 위해 먼저 SHRED 라는 얕은

Data Model
제로오버헤드 인트로스펙션으로 비용과 보상을 동시에 예측하는 ZIPRC

제로오버헤드 인트로스펙션으로 비용과 보상을 동시에 예측하는 ZIPRC

본 논문은 현재 대형 언어 모델(LLM)이 직면한 메타인지 부재 문제를 짚고, 이를 해결하기 위한 새로운 인프라스트럭처인 ZIP‑RC(Zero‑overhead Introspective Prediction of Reward and Cost)를 제시한다. 기존의 Best‑of‑N 방식은 고정된 샘플 수를 미리 정해두고 모든 후보에 대해 동일한 비용을 소모한다. 이는 생성 과정 중에 “이 정도면 충분한가?”라는 판단을 내릴 근거가 부족해, 실제로는 marginal benefit가 거의 없는 추가 샘플까지도 수행하게 만든다. 또한, 모델

커뮤니티 품질이 인플루언스 최대화에 미치는 영향 α계층 군집 기반 확산 실험

커뮤니티 품질이 인플루언스 최대화에 미치는 영향 α계층 군집 기반 확산 실험

이 논문은 인플루언스 최대화 문제를 해결하기 위한 두 가지 접근법을 체계적으로 비교함으로써, 커뮤니티 탐지 품질이 실제 확산 성능에 미치는 영향을 실증적으로 규명한다. 첫 번째 접근법은 기존의 계층 군집(Hierarchical Clustering) 알고리즘을 사용해 얻은 비교적 저품질의 커뮤니티 구조를 기반으로 시드 노드를 선정한다. 두 번째 접근법은 저자들이 이전 연구에서 제안한 α‑계층 군집(α‑Hierarchical Clustering) 알고리즘을 적용해, 보다 명확한 모듈성(modularity)과 내부 결속력을 가진 고품질

혁신을 측정하는 AI 에이전트 벤치마크 인노짐

혁신을 측정하는 AI 에이전트 벤치마크 인노짐

InnoGym이 제시하는 가장 큰 혁신은 “혁신성”이라는 추상적 개념을 정량화하려는 시도에 있다. 기존의 LLM·에이전트 평가는 주로 정답률, 실행 시간, 토큰 비용 등 효율성 지표에 집중했으며, 이는 모델이 기존 지식을 재현하는 능력은 잘 측정하지만, 새로운 아이디어를 창출하는 능력은 거의 드러내지 못한다. InnoGym은 이를 보완하기 위해 두 축, 즉 performance gain과 novelty를 동시에 측정한다. performance gain은 현재까지 보고된 최적 솔루션 대비 얼마나 개선했는지를 백분율 혹은 절대값으로 나

색채 위장 이미지 이해를 위한 대규모 멀티태스크 벤치마크

색채 위장 이미지 이해를 위한 대규모 멀티태스크 벤치마크

본 논문은 현재 Vision‑Language Model(VLM)이 직면한 핵심 한계인 ‘피겨‑그라운드 구분’ 문제를 정량적으로 평가하기 위해 매우 체계적인 벤치마크를 설계했다는 점에서 의미가 크다. 기존 VLM 평가 데이터셋은 주로 명확한 객체와 배경을 구분할 수 있는 이미지에 초점을 맞추었으며, 색채 위장(camouflage)과 같이 인간의 시각 시스템조차도 인지하기 어려운 상황을 충분히 반영하지 못했다. ChromouVQA는 이러한 공백을 메우기 위해 이시하라 점 플레이트(Ishihara plates)를 변형한 색채 위장 이미지

Model
인과 머신러닝 기반 사전 유지보수 원인 규명과 최적 개입

인과 머신러닝 기반 사전 유지보수 원인 규명과 최적 개입

본 논문은 제조 현장에서 예측 중심의 유지보수에서 한 단계 나아가 인과관계를 명시적으로 모델링함으로써 ‘처방형 유지보수(prescriptive maintenance)’를 구현하려는 시도를 상세히 제시한다. 먼저 기존 예측 모델이 “스푸리어스(correlational) 패턴”에 의존한다는 비판은 실제 현장 사례와 일치한다. 센서 데이터가 풍부하지만, 고장 원인에 대한 도메인 지식이 부족한 경우 모델이 잡아내는 신호는 종종 우연히 발생한 상관관계에 불과하다. 이러한 상황에서 단순히 고장 확률만을 제공받아도, 현장 엔지니어는 “어디를 고

Framework Model
인도 수학 올림피아드 문제를 활용한 자동 형식화 벤치마크

인도 수학 올림피아드 문제를 활용한 자동 형식화 벤치마크

자동 형식화(auto‑formalization) 문제는 자연어로 서술된 수학 문제를 기계가 이해할 수 있는 형식 언어, 여기서는 Lean 4와 같은 정리 증명 시스템으로 변환하는 과정을 의미한다. 기존 연구에서는 주로 서양 수학 교과서나 공개된 정리 데이터베이스를 활용했지만, 이러한 자료는 이미 많은 자동 형식화 도구에 의해 학습되어 과적합(over‑fitting) 위험이 있다. 반면 INDIMATHBENCH는 인도 수학 올림피아드라는 비교적 독립적인 출처에서 312개의 문제를 수집함으로써 데이터 다양성을 크게 확대한다. 이는 LL

No Image

문서검색 알고리즘의 효율성 향상: 접미사 트리 최적화를 통한 혁신

이 논문은 텍스트 검색 알고리즘의 효율성을 크게 높이는 방법을 제시한다. 특히 접미사 트리를 최적화함으로써, 현대 데이터셋에서 발생하는 복잡성과 규모 문제를 해결하고자 한다. 전통적인 Naive Search, KMP, Boyer Moore 알고리즘들은 기본적이지만, 그 효율성이 현대의 방대한 데이터 처리 요구사항에 부합하지 못한다. 이 연구에서는 접미사 트리를 Splitting 및 Ukkonen 알고리즘을 통해 최적화하는 방법을 제시하며, 이를 통해 선형 시간과 공간 효율성을 달성할 수 있음을 보여준다. 특히, Ukkonen 알고리

대규모 지역 에너지 소비 프로파일 모델링 및 계층적 분류 알고리즘

대규모 지역 에너지 소비 프로파일 모델링 및 계층적 분류 알고리즘

이 연구는 에너지 관리 분야에서 기존에 흔히 사용되던 개별 건물 단위의 현장 조사 방식이 갖는 비효율성을 근본적으로 해결하려는 시도로 평가할 수 있다. 저자는 프리토폴로지(pretopology)라는 수학적 프레임워크를 선택했는데, 이는 전통적인 위상수학이 제공하는 개념보다 더 유연하게 ‘근접성’과 ‘포함 관계’를 정의할 수 있다. 프리토폴로지 공간에서는 점들의 근접성을 나타내는 ‘프리클로저’ 연산과, 집합을 확장시키는 ‘프리내부’ 연산을 통해 데이터 간의 구조적 관계를 정량화한다. 이러한 연산을 기반으로 다중 기준(예: 위치, 크기

System
긴 꼬리 데이터에서 신경 붕괴 정렬을 통한 성능 향상

긴 꼬리 데이터에서 신경 붕괴 정렬을 통한 성능 향상

이 논문은 최근 각광받고 있는 ‘신경 붕괴(Neural Collapse, NC)’ 현상을 긴 꼬리 데이터 분류 문제에 적용함으로써, 기존 방법론이 놓치고 있던 핵심적인 정렬 문제를 새롭게 조명한다. NC는 학습이 진행될수록 클래스별 특징 평균(feature means)과 최종 선형 분류기의 가중치가 서로 정렬되고, 전체 클래스가 단순체 등각 긴밀 프레임(simplex ETF) 구조를 이루는 현상이다. 이 구조는 클래스 간 각도가 동일하고, 각 클래스의 특징이 서로 정규 직교하는 최적의 기하학적 배치를 제공한다는 점에서 이론적·실용적

Learning
위기 상황 이미지 지리화를 위한 LLM 기반 주의 메커니즘 결합 VPR 프레임워크

위기 상황 이미지 지리화를 위한 LLM 기반 주의 메커니즘 결합 VPR 프레임워크

본 논문은 사회 미디어에서 수집된 스트리트 뷰 이미지를 활용하여 도시 홍수와 같은 위기 상황을 실시간으로 모니터링하는 문제를 해결하기 위해 VPR AttLLM 프레임워크를 제안한다. 기존의 VPR 모델들은 교차 소스 시나리오에서 발생하는 시각적 왜곡과 도메인 이동으로 인해 성능이 저하되는 한계가 있다. 이를 해결하기 위해, 본 논문은 LLMs의 의미론적 추론 및 지리 공간 지식을 주의 메커니즘을 통해 기존 VPR 파이프라인에 통합하는 모델에 무관한 프레임워크를 제시한다. VPR AttLLM은 LLMs을 활용하여 이미지 내에서 위치

몬테카를로 기반 신경 연산자 경량 파라메트릭 PDE 솔루션 연산자

몬테카를로 기반 신경 연산자 경량 파라메트릭 PDE 솔루션 연산자

Monte Carlo형 신경 연산자(MCNO)는 기존 신경 연산자 연구에서 두드러진 두 가지 한계를 동시에 해결하려는 시도로 볼 수 있다. 첫 번째는 Fourier Neural Operator(FNO)와 같은 스펙트럼 기반 방법이 전제하는 주기성·평행이동 불변성 가정이다. 이러한 가정은 정규 격자나 주기적 경계조건을 갖는 문제에선 효율적이지만, 복잡한 지오메트리·비주기적 경계·비균일 격자에서는 적용이 어려워진다. MCNO는 커널을 임의의 점 집합 위에 정의하고, 이 점들을 Monte Carlo 샘플링으로 선택함으로써 스펙트럼 가정을

Learning

< 분야별 논문 현황 (Total: 768) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
10

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키