General

'General' 카테고리의 모든 글

총 273개의 글
시간순 정렬
하이퍼차원 트랜스포머와 이중행동 MAPPO 기반 자율항공기 6G IoT 의도 최적화 프레임워크

하이퍼차원 트랜스포머와 이중행동 MAPPO 기반 자율항공기 6G IoT 의도 최적화 프레임워크

본 연구는 6G 시대에 급증하는 초연결 IoT 환경과 자율항공기(AAV)의 협업을 위한 핵심 기술적 과제를 체계적으로 해결하고자 한다. 첫 번째 과제는 사용자 의도를 정확히 파악하는 것이다. 기존의 의도 추론 모델은 주로 텍스트 기반의 명시적 표현에 의존하는데, 실제 현장에서는 음성, 센서 데이터, 비정형 신호 등 다양한 형태의 모호하고 불완전한 입력이 존재한다. 이러한 상황에서 암시적 의도 모델링을 도입함으로써, 입력의 불확실성을 확률적 표현으로 전환하고, 하이퍼차원(Hyperdimensional) 공간에 매핑함으로써 고차원 특성

Network
형태 적응형 게이트 전문가 네트워크로 암 조직 이미지 분할 혁신

형태 적응형 게이트 전문가 네트워크로 암 조직 이미지 분할 혁신

본 논문은 전통적인 CNN‑Transformer 혼합 구조가 고정된 연산 그래프와 정적인 라우팅 전략에 의존함으로써 발생하는 두 가지 근본적인 한계를 지적한다. 첫 번째는 입력 이미지의 규모·형태가 크게 변동하는 전병 슬라이드(WSI)와 같은 초고해상도 의료 영상에서 불필요한 연산이 과다하게 발생한다는 점이다. 두 번째는 고정 라우팅이 다양한 세포 형태와 조직 구조에 대한 적응성을 저해한다는 점이다. 이를 해결하기 위해 제안된 Shape‑Adapting Gated Experts(SAGE)는 ‘전문가(Expert)’라는 개념을 도입해

빠른 언어 행동 선호 학습

빠른 언어 행동 선호 학습

본 논문은 인간‑로봇 상호작용(HRI) 분야에서 장기적으로 중요한 문제인 ‘다중모달 피드백을 통한 보상 학습’에 대해 실용적인 해결책을 제시한다. 기존 연구들은 물리적 교정(예: 시연, 물리적 끌어당김)이나 언어적 지시(예: 명령문, 설명) 중 하나에 초점을 맞추었으며, 두 모달리티를 결합하려는 시도는 대부분 규칙 기반이거나 사후 통합 방식에 머물렀다. 이러한 접근은 (1) 물리적 교정이 의도 해석에 불확실성을 내포하고, (2) 언어가 구체적인 행동 매핑을 제공하지 못한다는 근본적인 한계를 극복하지 못한다. QuickLAP은 이러한

Learning
극성 인식 대조 검색을 활용한 언어 모델 정렬 평가

극성 인식 대조 검색을 활용한 언어 모델 정렬 평가

본 논문은 최근 급부상하고 있는 비지도형 탐지 기법인 Contrast‑Consistent Search(CCS)의 정렬 평가 가능성을 심도 있게 탐구한다. 기존 CCS는 모델이 특정 입력에 대해 일관된 내부 표현을 생성하는지를 확인함으로써, 토큰 수준의 출력 없이도 모델이 어떤 ‘신념’을 가지고 있는지를 추론한다는 장점이 있다. 그러나 이러한 접근이 실제로 모델이 해로운 내용과 안전한 내용을 어떻게 구분하고, 그 구분이 정렬(Alignment)과 얼마나 연관되는지는 아직 명확히 규명되지 않았다. 연구진은 먼저 CCS가 해로운 진술과

Model
마이크로아키텍처 기반 멜트다운·스펙터 방어 메커니즘

마이크로아키텍처 기반 멜트다운·스펙터 방어 메커니즘

멜트다운과 스펙터는 현대 CPU가 채택한 사전 실행(out‑of‑order) 및 추측 실행(speculative execution) 메커니즘을 악용한다. 이 메커니즘은 프로그램 흐름을 예측해 미리 명령을 실행하고, 결과를 레지스터와 캐시 같은 마이크로아키텍처 구조에 저장한다. 정상적인 실행이 끝나면 잘못된 추측에 의해 생성된 결과는 폐기되지만, 그 과정에서 캐시 라인에 남은 흔적은 사라지지 않는다. 공격자는 이러한 캐시 잔여물을 타이밍 측정을 통해 읽어 비밀 데이터를 복원한다. 기존 소프트웨어 패치는 특정 명령어 시퀀스에 메모리 장

AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

본 논문은 현재 AI 기반 코딩 어시스턴트가 개발 현장에서 널리 활용되는 상황에서, 왜 여전히 ML 프로젝트의 성공률이 낮은지를 체계적으로 탐구한다. 연구자는 먼저 기존 문헌을 검토하여 성공 요인을 전략, 프로세스, 생태계, 지원 네 가지 차원으로 구분하고, 이를 시각화한 ‘머신러닝 캔버스’를 제안한다. 설문 설계는 각 차원을 정량화할 수 있는 항목들을 포함했으며, 150명의 데이터 과학자를 대상으로 6개월에 걸쳐 데이터를 수집하였다. 통계 분석에는 구조방정식 모델링(SEM)을 활용해 요인 간 인과관계를 검증했으며, β값과 p값을

Learning
대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

이 논문은 대규모 언어 모델(LLMs)의 협업 능력을 향상시키기 위해 강화 학습을 통합한 새로운 프레임워크를 제시합니다. 이 프레임워크는 다중 에이전트 환경에서 전역적인 성능 최적화에 어려움을 겪는 LLMs의 한계를 극복하려고 합니다. 논문은 협업을 분산 부분可观测马尔可夫决策过程(Dec POMDP)的形式化,并采用集中训练与分散执行(CTDE)。这种方法通过引入组相对策略优化(GRPO),在训练过程中利用全局信号来共同优化代理策略,同时简化联合奖励以平衡任务质量、速度和协调成本。实验结果表明,在协作写作和编码基准测试中,该框架比单代理基线提高了3倍的任务处理速

Learning
AI와 전통 건축의 만남: 이란 비둘기 탑을 중심으로

AI와 전통 건축의 만남: 이란 비둘기 탑을 중심으로

이 논문은 생성 AI 시스템이 건축물의 전통적인 디자인 요소와 그 의미를 어떻게 해석하고 재현하는지에 대한 깊이 있는 분석을 제공한다. 특히 이란의 비둘기 탑이라는 특정 사례를 통해 세 가지 주요 AI 모델, 즉 Midjourney v6, DALL•E 3, 그리고 Stable Diffusion XL (SDXL) 기반의 DreamStudio를 평가하고 있다. 연구는 참조적 단계에서 이미지를 직접적으로 재현하는 능력부터 시작하여, 적응적 단계에서는 주어진 정보에 따라 건축물의 특성을 어떻게 변형시키는지까지 살펴본다. 마지막으로 추측적

다중모달 공간 시간 지식으로 구현하는 이동성 예측 및 위치 추천

다중모달 공간 시간 지식으로 구현하는 이동성 예측 및 위치 추천

본 논문은 인간 이동성 예측을 위한 위치 추천 시스템에 다중모달 정보를 효과적으로 통합하려는 시도로, 기존 연구가 안고 있던 두 가지 주요 한계를 명확히 짚고 있다. 첫 번째는 단일 모달(예: GPS 로그, 소셜 미디어 텍스트 등)만을 이용할 경우 데이터 희소성 및 편향 문제에 직면한다는 점이다. 두 번째는 다중 모달을 활용하더라도 정적 이미지나 텍스트와 같은 표현이 공간‑시간적인 변화를 충분히 반영하지 못해, 실제 이동 패턴을 정확히 모델링하지 못한다는 점이다. 이러한 문제점을 해결하기 위해 저자들은 세 가지 핵심 기법을 제안한다

Learning
대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

본 연구는 현재 컴퓨터 비전 분야에서 가장 큰 도전 과제 중 하나인 “대규모 사전 학습 모델을 데이터가 부족한 특수 도메인에 효과적으로 전이시키는 방법”을 해결하고자 한다. 기존의 파인튜닝 방식은 사전 학습된 가중치를 그대로 사용하거나, 전체 네트워크를 미세조정하는 방식에 머물러 있어, 도메인 간 분포 차이가 클 경우 과적합이나 표현 손실이 발생한다. CLAdapter는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, 클러스터 중심을 활용해 입력 특징 공간을 여러 개의 의미론적 그룹으로 나누고, 각 클러스터에

Data Model
물리 기반과 해석 가능한 트리 모델을 결합한 NYC 택시 OD 흐름 예측 프레임워크

물리 기반과 해석 가능한 트리 모델을 결합한 NYC 택시 OD 흐름 예측 프레임워크

본 연구는 도시 이동성 예측 분야에서 ‘정확도’와 ‘해석 가능성’이라는 두 축을 동시에 만족시키려는 시도라는 점에서 학문적·실무적 의의가 크다. 먼저 저자들은 1년 동안 시간당으로 기록된 뉴욕시 택시 OD 데이터를 활용해 전통적인 공간 상호작용 모델들을 체계적으로 검증하였다. 여기서 PPML(Poisson Pseudo‑Maximum Likelihood) 기반의 Gravity 모델이 가장 높은 설명력을 보였지만, 시간 해상도가 세분화될수록 대부분의 물리 모델이 과적합이나 데이터 희소성 문제에 직면한다는 사실을 밝혀냈다. 특히, 전체

심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

본 논문은 심장기능 진단에 중요한 역할을 하는 LVEF를 추정하기 위해 다양한 딥러닝 아키텍처의 성능을 평가하고 있습니다. 초음파心动图作为一种常用的临床工具,用于评估心脏功能,但手动分析存在时间成本高和观察者间变异性大的问题。深度学习方法的引入为这个问题提供了一个有潜力的解决方案。本研究中,作者探讨了三种不同的深度学习架构:3D Inception、双流模型以及CNN RNN模型,并对这些模型进行了系统性的评估以确定最佳配置。实验结果表明,经过修改后的3D Inception架构表现最优,其均方根误差(RMSE)为6.79%。此外,研究还发现较小且简单的模型在泛化能力上优于复杂

Model Learning
No Image

호흡음 분류를 위한 AST와 SAM 기반 최적화 프레임워크

본 논문은 호흡음 분류 문제에 대한 해결책으로 트랜스포머 기반의 Audio Spectrogram Transformer (AST) 모델과 Sharpness Aware Minimization (SAM) 기법을 결합한 프레임워크를 제안합니다. 이 연구는 ICBHI 2017 데이터셋에서 일반적으로 겪는 문제점, 즉 작은 규모의 데이터셋, 높은 노이즈 수준 및 클래스 불균형에 초점을 맞추고 있습니다. 트랜스포머 모델은 복잡한 패턴을 추출하는 데 강력하지만, 제약된 의료 데이터에서 학습될 때 과적합의 위험이 있으며, 이는 모델이 손실 경사면의

대규모 그래프 학습을 위한 동적 밴딧 기반 레이어 중요도 샘플링

대규모 그래프 학습을 위한 동적 밴딧 기반 레이어 중요도 샘플링

본 논문은 그래프 신경망(GNN)의 확장성 문제를 근본적으로 재고하는 접근법을 제시한다. 전통적인 GNN 학습에서는 각 노드가 자신의 1‑hop 이웃을 모두 집계하는 과정이 필수적이다. 이 과정은 그래프가 커질수록 인접 행렬의 희소성에도 불구하고 메모리 사용량과 연산 복잡도가 급격히 증가한다는 한계를 갖는다. 최근에는 GraphSAGE, FastGCN, LADIES와 같은 정적 혹은 확률적 샘플링 기법이 제안되었지만, 이들 방법은 사전에 정의된 샘플링 비율이나 확률 분포에 의존한다. 따라서 그래프 구조가 학습 진행 중에 변화하거나,

Network
대형 언어 모델의 선호도 정합성: 알려지지 않은 링크 함수에 대한 강건한 접근

대형 언어 모델의 선호도 정합성: 알려지지 않은 링크 함수에 대한 강건한 접근

이 논문은 대형 언어 모델(LLMs)의 선호도 정합성 문제를 다루며, 특히 알려지지 않은 링크 함수에 대한 접근법을 제시한다. 보통 LLMs는 특정 연결 함수(예: 로짓 브라들리 테리 연결)를 가정하여 관찰된 선호와 잠재적 보상 사이의 관계를 모델링하는데, 이러한 연결 함수가 잘못 지정되면 추론된 보상과 학습된 정책이 불일치하게 된다. 논문은 알려지지 않은 링크 함수에 대해 f 분산 제약 조건 하에서 보상 최대화의 실현 가능성 문제를 다루며, 이를 통해 반파라메트릭 단일 인덱스 이진 선택 모델을 유도한다. 이 모델에서는 정책 종속

Model
No Image

복잡한 유동 패턴 분석: 지하수 오염부터 탄소 포집까지

본 연구는 대류 혼합이 지구물리학과 산업 분야에서 중요한 역할을 하는 다공성 매체의 열 전달 및 화학 물질 확산 과정에 초점을 맞추고 있습니다. 특히, 복잡하고 예측하기 어려운 유동 패턴을 이해하는 데 지속적 호모로지(PH)를 활용합니다. PH는 다양한 온도나 농도 값에서 구조를 정량화할 수 있는 객관적인 측정 방법으로, 고전적인 다공성 매체 설정에 적용될 때 유동 패턴과 거시적 혼합 특성을 분석하는 새로운 통찰력을 제공합니다. 본 연구에서는 대규모 데이터 세트를 활용하여 열 전달 속도와 유동 구조의 진화 사이의 상관 관계를 분석하

Analysis
No Image

비디오줌머: 다중모달 언어 모델의 동적 시각적 주의력 제어

비디오줌머는 MLLMs의 한계를 극복하기 위한 혁신적인 접근법이다. 기존 모델들이 고정된 프레임 샘플링이나 정적 사전 선택에 의존함으로써 중요한 정보를 놓치거나 초기 오류를 수정할 수 없는 문제점을 해결하고자, 비디오줌머는 MLLMs가 추론 과정에서 시각적 주의력을 동적으로 조절할 수 있는 에이전트 프레임워크를 제안한다. 이 모델은 저속 프레임 레이트로 시작하여 시간 확대 도구를 사용해 고속 프레임 레이트 클립을 자동으로 선택하고 수집함으로써, 점진적으로 세밀한 증거를 다중 회차 상호작용 방식으로 수집한다. 이는 비디오줌머가 동영상

비트코인 가격 예측을 위한 글로벌 유동성 조건화 모델

비트코인 가격 예측을 위한 글로벌 유동성 조건화 모델

본 논문은 비트코인 가격 예측 모델에 대한 중요한 통찰력을 제공합니다. 특히, 단일 변수 시계열 예측 모델이 비트코인의 극도로 변동성 높고 비정상적인 특성을 처리하는 데 어려움을 겪는다는 점을 강조하고 있습니다. 이를 해결하기 위해 글로벌 M2 유동성을 외생 변수로 통합한 TimeXer Exog 모델을 제안합니다. 이 모델은 LSTM, N BEATS, PatchTST 등 기존의 최신 단일 변수 예측 모델들과 비교하여 우수한 성능을 보였습니다. 실험 결과는 70일 예측 기간에서 TimeXer Exog 모델이 평균제곱오차(MSE) 측면

System
셀프 호스팅 LLM을 위한 스마트 오케스트레이션 프레임워크 Pick and Spin

셀프 호스팅 LLM을 위한 스마트 오케스트레이션 프레임워크 Pick and Spin

본 연구는 대규모 언어 모델을 자체 데이터센터에 구축하려는 기업·기관을 대상으로, 기존의 정적 배포 방식이 안고 있던 비효율성을 근본적으로 개선하고자 하는 시도이다. 첫 번째 핵심 문제는 GPU 자원의 비정상적 사용이다. LLM은 모델 크기에 따라 수십에서 수백 개의 GPU가 필요하지만, 실제 요청량은 시간대별, 서비스별로 크게 변동한다. 정적 할당은 피크 시점에는 성능 저하, 비피크 시점에는 자원 낭비를 초래한다. 두 번째는 다양한 모델과 워크로드를 동시에 운영할 때 발생하는 라우팅 복잡성이다. 모델마다 정확도·응답시간·비용 특성

Model
시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

이 논문은 현대 의료 인공지능이 직면한 두 가지 핵심 문제—데이터 부족과 블랙박스 현상—에 대한 혁신적인 해결책을 제시한다. 먼저, ‘가짜 색채(pseudo‑colouring)’라는 개념은 원래 인간 전문가가 ECG를 시각적으로 해석할 때 중요한 시간적 특징, 예컨대 QT 간격을 색상으로 강조함으로써 인지 부하를 낮추는 방법으로 알려져 있다. 이를 디지털 이미지에 그대로 적용하면, 신경망이 원시 전압 파형 대신 색상 채널을 통해 의미 있는 정보를 직접 받아들일 수 있다. 색상은 3차원(RGB) 공간에서 서로 다른 시간 구간을 구분하

Network Data Learning
인공지능의 감성 지능 평가 프레임워크: HeartBench

인공지능의 감성 지능 평가 프레임워크: HeartBench

이 논문은 대형 언어 모델(LLMs)의 한계와 그 해결책에 초점을 맞추고 있다. 특히, LLMs가 사회적, 정서적, 윤리적 미묘함을 이해하는 데 어려움을 겪는다는 점을 강조한다. 이 문제는 중국어 문화와 언어 맥락에서 더욱 두드러지며, 이를 해결하기 위해 HeartBench라는 새로운 평가 프레임워크를 제시하고 있다. HeartBench는 심리 상담 시나리오와 임상 전문가들의 협업을 통해 개발되었으며, 5개 주요 차원과 그 하위 능력으로 구성된 이론 중심 분류 체계를 기반으로 한다. 이를 통해 추상적인 인간 유사 특성을 세분화된 측

제어 파라미터를 활용한 수치 계획의 실용적 컴파일 기법

제어 파라미터를 활용한 수치 계획의 실용적 컴파일 기법

본 연구는 수치 계획(Numeric Planning) 분야에서 ‘제어 파라미터(Control Parameters)’라는 새로운 차원을 도입함으로써 기존 모델이 갖는 한계를 극복하려는 시도이다. 전통적인 수치 계획에서는 각 행동이 미리 정의된 매개변수 집합을 가지고 있어, 특정 상태에서 적용 가능한 행동의 수가 유한하고, 이를 기반으로 휴리스틱 함수가 효과적으로 설계될 수 있었다. 그러나 제어 파라미터를 자유 변수로 두면, 같은 행동 유형이라도 매개변수값에 따라 무수히 많은 구체화가 가능해진다. 결과적으로 한 상태에서 “적용 가능한

과학 자동 목표 진화 에이전트 SAGA

과학 자동 목표 진화 에이전트 SAGA

SAGA는 기존 과학 자동화 프레임워크가 직면한 근본적인 한계를 뛰어넘는다. 전통적인 접근법은 사전에 정의된 목표 함수를 고정하고, 그 함수에 맞춰 후보 물질이나 설계안을 탐색한다. 그러나 복잡한 과학 문제에서는 목표 자체가 불완전하거나 상충되는 경우가 많아, 고정된 목표에 최적화된 솔루션이 실제로는 비현실적이거나 활용도가 낮을 수 있다. SAGA는 이러한 문제를 ‘목표 자체를 진화시키는’ 메커니즘으로 해결한다. 첫 번째 핵심은 이중 루프 구조 이다. 외부 루프는 LLM 기반 에이전트가 현재 최적화 결과를 메타‑분석하고, 발견된 부

다양성 확보와 모드 붕괴 방지를 위한 고해상도 이미지 생성 연구

다양성 확보와 모드 붕괴 방지를 위한 고해상도 이미지 생성 연구

본 논문은 현대 생성 모델이 직면한 두 가지 핵심 과제, 즉 ‘모드 붕괴(Mode Collapse)’와 ‘모드 커버리지(Rich Mode Coverage)’ 사이의 트레이드오프를 실험적·이론적으로 탐구한다. 모드 붕괴는 학습된 모델이 제한된 소수의 출력 모드만을 반복 생성함으로써 데이터 분포의 다양성을 상실하는 현상이며, 이는 특히 고해상도 이미지 생성에서 심각한 품질 저하를 초래한다. 반면, 풍부한 모드 커버리지는 모델이 원본 데이터의 다양한 스타일, 색감, 구성을 포괄적으로 학습함을 의미한다. 이를 해결하기 위해 저자는 (c)

No Image

세밀한 작업 스케줄링으로 MoE 추론 효율 극대화

본 논문은 현재 대형 언어 모델(Large Language Model, LLM)에서 핵심적인 역할을 하는 Mixture‑of‑Experts(MoE) 아키텍처의 추론 효율성을 크게 개선하고자 하는 실용적인 접근을 제시한다. MoE는 전문가(Expert) 라는 서브모델을 다수 보유하고, 입력 토큰당 활성화되는 전문가 수를 제한함으로써 모델 파라미터는 크게 늘리면서도 실제 연산량은 상대적으로 낮게 유지한다. 그러나 추론 단계에서는 두 가지 주요 병목이 존재한다. 첫째, 트랜스포머 어텐션 레이어에서 매 토큰마다 KV 캐시를 읽고 쓰는 과정

인간과 AI가 함께 성장하는 교육 혁신 양방향 정렬의 미래

인간과 AI가 함께 성장하는 교육 혁신 양방향 정렬의 미래

본 논문은 인공지능이 교육 현장에 미치는 변화를 단순한 기술 도입 수준을 넘어 ‘양방향 정렬(bidirectional alignment)’이라는 새로운 프레임워크로 재구성한다. 전통적인 AI 윤리 논의는 주로 인간 가치와 목표를 알고리즘에 내재시키는 일방향적 접근에 머물렀다. 그러나 교육은 학습자와 교사, 제도 전체가 지속적으로 상호작용하고 피드백을 주고받는 복합 시스템이다. 따라서 AI가 제공하는 맞춤형 학습 경로, 자동 채점, 학습 분석 도구는 교사의 전문성·판단을 보완하는 동시에 교사와 학생이 AI의 작동 원리와 한계를 이해하

Learning
No Image

AI 생성 결정구조의 동역학적 안정성 대규모 벤치마크

본 논문은 인공지능 기반 결정 설계 분야에서 장기간 간과되어 온 핵심 문제인 동역학적 안정성을 체계적으로 검증한 최초의 대규모 벤치마크를 제시한다는 점에서 학문적·산업적 파급력이 크다. 기존의 S.U.N. 평가 체계는 열역학적 안정성에 초점을 맞추어, 계산 효율성은 확보했지만 실제 합성 가능성을 판단하기엔 부족했다. 동역학적 안정성은 포논 스펙트럼, 특히 전 영역에서의 음의 모드 존재 여부에 의해 결정되며, 이는 물질이 실험실에서 실제로 존재할 수 있는지를 가늠하는 가장 확실한 지표다. 그러나 DFT 기반 포논 계산은 수천 개 원자

AInsteinBench 대규모 과학 소프트웨어 개발 에이전트 평가 벤치마크

AInsteinBench 대규모 과학 소프트웨어 개발 에이전트 평가 벤치마크

AInsteinBench은 현재 LLM 기반 코딩 에이전트 연구에서 눈에 띄는 공백을 메우는 시도이다. 첫째, 데이터 소스가 “maintainer‑authored pull requests”라는 점에서 실제 개발자들이 직면하는 복합적인 요구사항—코드 스타일, 성능 최적화, 문서화, 테스트 작성—을 그대로 반영한다는 강점을 가진다. 이는 기존 벤치마크가 주로 인공적으로 만든 코딩 과제나 단순한 알고리즘 구현에 머무는 한계를 뛰어넘는다. 둘째, 여섯 개의 도메인(양자 화학·양자 컴퓨팅·분자 동역학·수치 상대성·유체 역학·화학 정보학)은

No Image

멀티플라이어 아키텍처 역공학을 위한 그래프 학습 기반 방법 ReVEAL

ReVEAL은 그래프 학습을 활용하여 멀티플라이어 아키텍처의 역공학을 수행하는 혁신적인 방법론이다. 이 접근법은 기존의 규칙 기반 방법보다 확장성과 정확도를 크게 향상시키는 데 중점을 두고 있다. ReVEAL은 대규모 최적화된 멀티플라이어에서 발생할 수 있는 복잡한 패턴을 식별하고, 이를 통해 대수적 회로 검증 기술의 성능을 개선한다. 특히, 이 방법론은 다양한 멀티플라이어 벤치마크에 적용 가능하며, 이를 통해 그 유연성과 효과성을 입증한다. ReVEAL은 학습 주도 추론과 구조적인 그래프 특징을 활용하여 아키텍처 패턴을 식별하고,

생물학적 언어 모델을 위한 반사 사전학습과 사고 토큰 확장

생물학적 언어 모델을 위한 반사 사전학습과 사고 토큰 확장

Chain of Thought(CoT) 프롬프트는 최근 자연어 처리 분야에서 가장 주목받는 기법 중 하나이다. 기존의 “질문‑답변” 형태 프롬프트는 모델이 바로 최종 답을 출력하도록 강요하지만, CoT는 모델이 중간에 논리적·수학적 추론 과정을 텍스트 토큰 형태로 서술하도록 만든다. 이러한 “비답변 토큰”은 모델이 복잡한 연산을 단계별로 풀어가게 함으로써, 특히 다중 단계 논리, 수식 전개, 혹은 코드 생성과 같은 작업에서 오류율을 크게 낮춘다. CoT가 성공을 거둘 수 있었던 핵심은 두 가지이다. 첫째, 인간 언어 자체가 풍부한

Model
세 갈등 상황에서 가중 일관성 기반 전략 도출 연구

세 갈등 상황에서 가중 일관성 기반 전략 도출 연구

본 논문은 세 갈등(three‑way conflict) 상황에서 전략적 의사결정을 지원하기 위한 새로운 정량적 프레임워크를 제시한다는 점에서 학술적·실무적 의의가 크다. 첫 번째로, 기존 갈등 분석 연구가 주로 에이전트·이슈·관계의 삼분법적 분류에 머물렀던 반면, 저자는 ‘실행 가능한 전략(feasible strategy)’이라는 개념을 도입해 갈등 해결 단계까지 확장하였다. 이는 갈등 분석을 진단에서 처방으로 전환하는 중요한 전환점이다. 두 번째로, 긍정·부정 유사도 기반의 클리크 평점 계산은 다중 이해관계자 간 상호작용을 정량화

Analysis
프로그래밍 가능한 최적응답 LLM 기반 정책 코드로 다중 에이전트 협력

프로그래밍 가능한 최적응답 LLM 기반 정책 코드로 다중 에이전트 협력

본 논문은 다중 에이전트 시스템에서 전략 적응을 위한 근본적인 한계를 지적하고, 이를 해결하기 위한 혁신적인 접근법을 제시한다. 기존 딥 강화학습에서는 정책을 신경망 파라미터 집합으로 표현한다. 이러한 고차원 벡터는 인간이 직관적으로 이해하거나 다른 에이전트가 직접 활용하기에 적합하지 않다. 특히 상대 에이전트의 행동을 예측하거나 이에 맞춰 전략을 수정하려면 “정책을 읽을 수 있는” 형태가 필요하지만, 현재 기술로는 이를 구현하기 어렵다. 논문은 이 문제를 ‘정책을 소스 코드 형태로 표현한다’는 아이디어로 해결한다. 소스 코드는 인

관상동맥 조영술 기반 데이터 구동 관상동맥 미세혈관 기능 지수 추정 프레임워크

관상동맥 조영술 기반 데이터 구동 관상동맥 미세혈관 기능 지수 추정 프레임워크

관상동맥 미세혈관 기능장애(CMD)는 전통적인 관상동맥 질환 진단에서 간과되기 쉬운 중요한 병리학적 현상이다. 기존에 CMD를 평가하기 위해서는 압력 와이어를 이용해 미세관 저항 지수(IMR)와 관상동맥 혈류 예비율(CFR)을 직접 측정해야 하는데, 이러한 침습적 방법은 비용이 높고 시술 시간이 길며, 환자에게 출혈·혈관 손상 등 부작용 위험을 동반한다. 따라서 임상 현장에서 CMD를 체계적으로 파악하기는 현실적으로 어려운 점이 있다. 본 연구는 이러한 한계를 극복하고자, 이미 임상에서 널리 사용되는 관상동맥 조영술 영상을 활용해

Data
기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

본 논문은 사전 학습된 대형 모델(Pre‑trained Foundation Models, 이하 PFM)이 멀티모달 학습에서 차지하는 전략적 위치를 재조명한다. 기존의 “pre‑train, prompt, predict” 흐름은 파라미터를 직접 업데이트하는 전통적인 미세조정 방식과 달리, 프롬프트 토큰을 삽입하거나 템플릿을 설계함으로써 모델 자체는 고정된 채 외부 입력만으로 작업을 수행하도록 만든다. 이러한 접근은 파라미터 효율성을 크게 높였지만, 여전히 “기억 중심”의 일반화 한계에 직면한다. 구체적으로, 제한된 라벨 데이터만으로 프

Model Learning
비접촉 영상과 주변 센서의 분해형 시공간 정렬 DETACH 프레임워크

비접촉 영상과 주변 센서의 분해형 시공간 정렬 DETACH 프레임워크

이 논문은 인간 행동 인식을 위한 멀티모달 정렬 연구에서 새로운 패러다임을 제시한다. 기존 연구들은 주로 착용형 센서와 자기시점(egocentric) 영상 사이의 전역 정렬(Global Alignment)에 의존해 왔으며, 이는 전체 시퀀스를 하나의 고차원 벡터로 압축해 두 모달리티를 매칭한다. 그러나 이러한 접근은 두 가지 근본적인 한계에 봉착한다. 첫째, 행동의 미세한 움직임이나 부분적인 변화를 포착하기 위한 지역적 디테일이 손실된다. 예를 들어, 손목의 미세한 회전이나 물체와의 접촉 순간은 전체 시퀀스 평균화 과정에서 희석된다

Learning
에지 콜랩스를 활용한 메쉬 단순화 구현 가이드

에지 콜랩스를 활용한 메쉬 단순화 구현 가이드

에지 콜랩스(edge collapse)는 메쉬 단순화 분야에서 가장 널리 채택되는 로컬 리다쿠션 기법으로, 복잡한 다각형 메쉬를 저해상도 형태로 변환하면서도 시각적 품질을 유지하려는 목적에 부합한다. 핵심 아이디어는 두 인접 정점을 하나로 합치고, 그에 따라 연결된 면들을 재구성하는 과정에서 발생하는 기하학적 오차를 최소화하는 것이다. 이를 위해서는 “어떤 엣지를 언제 콜랩스할 것인가?”라는 선택 문제가 비용 함수(cost function)에 의해 정의된다. 가장 유명한 비용 함수는 Garland와 Heckbert가 제안한 Quad

인공과 유기적 지능 사이의 경계: 디지털 건강을 중심으로

인공과 유기적 지능 사이의 경계: 디지털 건강을 중심으로

이 논문은 인공지능(AI)이라는 개념을 재정의하고, AI와 유기적 지능 간의 관계를 탐구한다. '인공'이라는 용어는 자연과 대비되는 것으로 이해되지만, 이 논문은 AI가 인간의 창의성과 진화 과정에서 영감을 받았음을 강조하며, 이러한 관점에서는 인공지능이 '유기적'으로부터 크게 벗어나지 않는다는 점을 제시한다. 특히 디지털 건강 분야를 중심으로 AI의 발전 경로를 설명하면서, AI가 단순히 복잡한 매개변수와 알고리즘의 집합이 아니라 조직과 적응에 기반한다는 것을 강조한다. 논문은 AI의 원칙들이 인간 뇌신경생물학 및 진화 과정에서

자율 기억 검색으로 LLM 답변 품질을 극대화하는 MemR³ 시스템

자율 기억 검색으로 LLM 답변 품질을 극대화하는 MemR³ 시스템

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 과거 경험을 활용하는 메모리 시스템을 재검토한다. 기존 연구들은 주로 메모리의 압축 효율과 저장 용량을 최적화하는 데 초점을 맞추었으며, 실제 답변을 도출하는 과정에서 기억을 언제, 어떻게 검색할지에 대한 의사결정 메커니즘은 거의 다루지 않았다. 이러한 한계는 특히 복합적인 질문에 대해 충분한 증거를 수집하지 못하거나, 이미 확보한 정보에 과도하게 의존하는 문제를 야기한다. MemR³는 이러한 문제점을 해결하기 위해 두 가지 혁신적인 구성요소를 도입한다. 첫 번째는 ‘라우터’이다

No Image

조기 종료 신경망의 견고성 검증: 효율과 안전성을 동시에 잡다

본 논문은 최근 인공지능 시스템에서 두드러지는 두 가지 요구, 즉 안전성(robustness) 과 효율성(efficiency) 을 동시에 만족시키기 위한 새로운 연구 방향을 제시한다. 전통적인 신경망 검증 연구는 주로 전체 네트워크가 단일 경로로 실행된다는 전제 하에, 입력 변동에 대한 출력 변동을 수학적으로 제한하는 방식으로 진행되어 왔다. 그러나 실제 서비스 환경에서는 지연 시간과 연산 비용을 절감하기 위해 조기 종료(early exit) 메커니즘을 도입하는 경우가 늘어나고 있다. 조기 종료는 중간 레이어에서 충분히 높은 신뢰도

Network
체인오브생각 기반 대형언어모델이 뇌 전이 방사선 수술 자동계획에 미치는 영향

체인오브생각 기반 대형언어모델이 뇌 전이 방사선 수술 자동계획에 미치는 영향

본 연구는 인공지능 기반 치료 계획 시스템이 임상 현장에서 신뢰를 얻기 위해서는 ‘설명 가능성’이 필수적이라는 가정을 검증한다. 기존의 대형언어모델(LLM) 기반 자동화는 높은 성능에도 불구하고 내부 의사결정 과정을 검증할 수 없다는 한계가 있었다. 이를 극복하고자 연구팀은 ‘체인오브생각(Chain‑of‑Thought, CoT)’이라는 사고 흐름을 명시적으로 생성하도록 프롬프트를 설계하였다. CoT는 모델이 문제를 단계별로 분해하고, 각 단계에서 제약조건을 확인하며, 가능한 대안을 논의하도록 유도한다. 이러한 과정은 최종 선량 최적

Model
No Image

희소주의 기반 확산 모델로 장문 텍스트 생성 효율성 혁신

SA‑DiffuSeq는 기존 확산 모델이 직면한 “시간·공간 복잡도 폭발” 문제를 근본적으로 재구성한다는 점에서 학술적 의의가 크다. 전통적인 확산 텍스트 생성은 전체 토큰 간의 전역 어텐션을 매 단계마다 수행한다. 이 방식은 시퀀스 길이 L에 대해 O(L²)·T(스텝 수)의 연산량을 요구해, 수천 토큰을 넘어서는 문서에서는 GPU 메모리 초과와 학습 시간 급증을 초래한다. SA‑DiffuSeq는 이러한 전역 연산을 “희소 어텐션”이라는 구조적 제약으로 대체한다. 구체적으로, 각 디퓨전 스텝에서 토큰 간의 어텐션 연결을 동적으로 선

AI 물리학자 PHYSMASTER 이론과 수치를 자율적으로 결합한 혁신 에이전트

AI 물리학자 PHYSMASTER 이론과 수치를 자율적으로 결합한 혁신 에이전트

이 논문은 현재 인공지능이 과학 연구에 미치는 영향을 한 단계 끌어올리는 중요한 시도를 제시한다. 기존의 AI 연구는 주로 정형화된 문제 풀이 혹은 정보 검색에 머물렀으며, 실제 물리학 연구와 같이 복합적인 이론적 사고와 수치 시뮬레이션을 동시에 요구하는 작업을 수행하기엔 한계가 있었다. PHYSMASTER는 이러한 한계를 극복하기 위해 두 가지 핵심 요소를 결합한다. 첫째, 대규모 언어 모델에 이론적 추론과 코딩 능력을 동시에 부여함으로써, 사용자가 제시한 물리적 질문에 대해 논리적 전개와 수치 검증을 연속적으로 수행한다. 둘째,

No Image

AI가 인간 애니메이션에서 걸음걸이 생체인식을 구현할 수 있을까?

생성 AI의 발전은 애니메이션 분야에서 새로운 가능성을 열었지만, 인간 움직임의 자연스러운 재현에는 여전히 한계가 있습니다. 특히 생체인식과 같은 고도로 세밀한 작업에서는 이러한 한계가 더욱 두드러집니다. 본 연구는 최신 생성 AI 모델들이 걸음걸이 패턴을 정확하게 복원하고 이를 다른 시각적 정체성에 전달할 수 있는지 평가했습니다. 결과적으로, 현재의 생성 AI 모델들은 움직임과 정체성을 분리하는 데 어려움을 겪고 있으며, 이는 외관 기반 걸음걸이 인식에서 식별률이 크게 저하되는 원인 중 하나입니다. 이러한 발견은 미래의 연구가 동

WorldWarp 3D 캐시 기반 시공간 확산을 이용한 비디오 워핑 및 복원

WorldWarp 3D 캐시 기반 시공간 확산을 이용한 비디오 워핑 및 복원

WorldWarp 논문은 영상 합성·보정 분야에서 장기간 해결되지 않아 온·오프라인 커뮤니티에서 꾸준히 논의돼 온 ‘워핑에 의한 구멍’ 문제를 근본적으로 해결하려는 시도로 평가할 수 있다. 전통적인 정적 워핑은 입력 프레임을 3D 공간에 투사한 뒤, 카메라 변환을 적용해 새로운 시점(view)을 생성한다. 이 과정에서 가려진 영역(occlusion)이나 시점 변화에 따라 드러나지 않았던 배경·구조가 나타나면, 원본 영상에는 해당 픽셀 정보가 존재하지 않으므로 ‘hole’이 발생한다. 기존 연구들은 인페인팅(inpainting)이나

대규모 암 데이터 자동 추출을 위한 에이전트 기반 LLM 프레임워크

대규모 암 데이터 자동 추출을 위한 에이전트 기반 LLM 프레임워크

본 논문은 전자 건강 기록(EHR) 내에 산재해 있는 비구조화 텍스트를 활용해 암 환자에 대한 정밀한 임상 정보를 자동으로 구조화하는 문제에 접근한다. 기존 연구들은 크게 두 가지 한계에 봉착한다. 첫째, 합성 데이터셋을 이용하거나 제한된 실제 데이터에만 의존함으로써 실제 임상 현장의 복잡성을 충분히 반영하지 못한다는 점이다. 합성 데이터는 용어 다양성, 문서 형식 변이, 그리고 환자 간 정보 충돌을 재현하기 어렵다. 둘째, 대부분의 자동화 방법이 문서 수준에서 특정 변수만을 추출하도록 설계돼, 환자 전체 기록을 통합해 일관된 프로

Data
대규모 임상 벤치마크 라벨 품질 개선을 위한 LLM 기반 스튜어드십 프로세스

대규모 임상 벤치마크 라벨 품질 개선을 위한 LLM 기반 스튜어드십 프로세스

본 연구는 임상 데이터 자동화에 LLM을 적용함에 있어 가장 핵심적인 문제인 라벨 신뢰성을 체계적으로 검증한다는 점에서 학술적·실무적 의의를 가진다. 기존 의료 점수는 임상의의 경험과 판단에 기반해 수작업으로 산출되었으며, 이는 정확도는 높지만 시간과 인력 비용이 크게 소요되는 단점이 있다. MedCalc‑Bench는 이러한 작업을 LLM으로 대체하려는 시도로, 대규모 벤치마크를 제공함으로써 연구자들이 모델 성능을 비교할 수 있는 기반을 마련했다. 그러나 라벨 자체를 LLM이 생성했다는 사실은 ‘라벨링 편향’이라는 심각한 위험을 내

반사 기반 제어를 활용한 안전한 코드 생성 에이전트

반사 기반 제어를 활용한 안전한 코드 생성 에이전트

본 논문은 대형 언어 모델(LLM) 기반 코딩 에이전트가 직면한 안전성 문제를 근본적으로 해결하려는 시도로서, ‘반사 기반 제어(Reflection‑Driven Control, RDC)’라는 새로운 메커니즘을 제안한다. 기존의 안전 제어 방식은 주로 사후 필터링, 프롬프트 엔지니어링, 혹은 외부 검증 모듈에 의존한다. 이러한 접근법은 모델이 이미 위험한 출력을 생성한 뒤에 이를 차단하거나 수정하기 때문에, 위험이 발생할 가능성을 완전히 배제하지 못한다. 반면 RDC는 위험 감지를 생성 과정 중에 수행한다는 점에서 차별화된다. RDC

이진신경망을 활용한 손글씨 숫자 인식 FPGA 가속기

이진신경망을 활용한 손글씨 숫자 인식 FPGA 가속기

이 논문은 이진신경망(BNN)을 활용한 손글씨 숫자 인식 가속기의 설계와 구현을 다룹니다. BNN는 부동소수점 연산 대신 비트 논리 연산을 사용함으로써, 저전력과 고속 추론이 가능한 특성을 가지고 있습니다. 특히 이 연구에서는 Xilinx Artix 7 FPGA를 타겟으로 하여 Verilog 언어로 수작업 설계를 수행하였습니다. 이는 고수준 합성 도구 없이도 실시간 분류 성능을 달성할 수 있음을 보여주며, 80 MHz에서 작동하면서 낮은 전력 소비와 예측 가능한 타이밍을 제공합니다. MNIST 데이터셋에 대한 시뮬레이션 결과에서는

Network
No Image

주의력 침수: 중간 레이어에서 나타나는 새로운 주의력 패턴

이 논문은 기존 연구에서 다루어진 '주요 침수'와 구별되는 새로운 형태의 '부차적 침수'를 식별하고 그 특성과 형성 과정을 분석한다. 부차적 침수는 중간 레이어에서 주로 발생하며, 다양한 수의 레이어에 걸쳐 존재하고 상대적으로 작은 양의 주의력을 받는다. 이 연구에서는 11개 모델 가족을 대상으로 실험을 통해 이러한 부차적 침수의 형성 과정과 특성을 분석한다. 특히, 중간 레이어의 MLP 모듈에서 토큰 표현을 주요 침수 방향에 맞게 매핑하는 것을 발견하고, 이 벡터들의 2 노름이 부차적 침수의 점수와 지속 기간을 결정한다는 사실을

상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

이 논문은 인공지능, 특히 대형 멀티모달 모델(LMM)이 “상태 변화(state transition)”를 얼마나 잘 이해하고 추론할 수 있는지를 평가하기 위한 새로운 벤치마크를 제안한다. 기존의 평가 체계는 대부분 정적인 상황, 즉 하나의 이미지 혹은 영상 프레임에 대한 질문에 국한된다. 예를 들어 “침대 옆 서랍이 열려 있나요?”와 같은 질문에 대해 모델이 “열림” 혹은 “닫힘”이라는 단일 답변을 제시하도록 요구한다. 이러한 접근은 인간이 일상 생활에서 경험하는 “시간에 따른 변화”를 포착하지 못한다. 인간은 동일한 물체가 시간

Model

< 분야별 논문 현황 (Total: 768) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
10

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키