Model

'Model' 태그의 모든 글

총 104개의 글
시간순 정렬
페트리넷과 생물학적 모델링: 상호작용으로부터 얻는 이점

페트리넷과 생물학적 모델링: 상호작용으로부터 얻는 이점

: 본 논문은 페트리넷과 생물학적 시스템 간의 상호작용을 통해 얻을 수 있는 이점을 탐구합니다. 페트리넷은 동시성과 분산 계산을 위한 강력한 도구로, 행동 특성을 분석하고 검증하는 데 사용됩니다. 생물학적 과정을 이해하기 위해 제안된 막 시스템과 반응 시스템은 세포 내 화학 반응을 추상화한 모델입니다. 페트리넷의 원인과 동시성 의미론에 대한 이해는 페트리넷이 어떻게 생물학적 과정을 정확히 모델링할 수 있는지 설명하는 데 중요합니다. 막 시스템은 세포 내 화학 반응에서 영감을 받아 개발되었으며, 이는 페트리넷과 유사한 다중 집합 재구

Formal Languages Distributed Computing Model Computer Science
스플라인 알고리즘을 활용한 고속 신호 복원: 효율적인 컴퓨팅 구조 개발

스플라인 알고리즘을 활용한 고속 신호 복원: 효율적인 컴퓨팅 구조 개발

본 논문의 핵심 내용은 스플라인(spline) 알고리즘을 활용한 고속 신호 복원 컴퓨팅 구조 개발에 대한 것입니다. 이 연구는 디지털 신호 처리 분야에서 중요한 역할을 하는 스플라인 모델의 발전과 적용에 중점을 두고 있습니다. 1. 스플라인 알고리즘의 중요성 스플라인은 다양한 읽기 처리 알고리즘의 보편성을 제공하며, 우수한 미분 및 극한 특성, 높은 추정 수렴도를 가지고 있어 신호 분석과 복원에 널리 사용되고 있습니다. 특히 스플라인은 단순한 형태와 파라미터 계산, 그리고 라운드 오류에 대한 약한 영향으로 인해 1차원 및 다변수 신

Numerical Analysis Model Computer Science
골 재구성 시뮬레이션을 위한 하이브리드 FENN 방법

골 재구성 시뮬레이션을 위한 하이브리드 FENN 방법

: 본 논문은 골 재구성 과정을 시뮬레이션하기 위한 새로운 다중 규모 접근 방식, 즉 하이브리드 FENN(Finite Element and Neural Network) 방법을 제안한다. 이 방법의 핵심은 유한 요소 분석과 인공 신경망 계산을 결합하여 골 재구성 과정에서 발생하는 복잡한 현상을 효과적으로 모델링하고 시뮬레이션할 수 있도록 하는 것이다. 1. 다중 규모 접근 방식의 필요성 골 재구성은 뼈의 미세 구조부터 거시적 행동까지 다양한 규모에서 발생하는 복잡한 과정이다. 이 과정을 정확하게 모델링하기 위해서는 각 수준에서의 상호

Quantitative Biology Model Network Physics
표준화된 지문 템플릿으로 더 정확한 지문 인식

표준화된 지문 템플릿으로 더 정확한 지문 인식

지문 인식은 생체 인식 기술 중 하나로, 고유한 특징과 지속성 덕분에 중요한 역할을 합니다. 그러나 저품질 이미지나 소형 영역에서 획득된 데이터를 처리하는 데 어려움이 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 표준화된 지문 템플릿 모델을 제안합니다. 1. 연구 배경 및 필요성 지문 인식의 핵심은 템플릿과 쿼리 지문 간의 매칭입니다. 이 과정에서 다양한 알고리즘이 개발되었지만, 특히 지문이 회전되거나 교차 부분이 작은 경우 정확도가 떨어집니다. 이를 해결하기 위해 표준화된 지문 템플릿 모델을 제안합니다. 2. 연구 방법

Model Computer Vision Computer Science
KGCE 지식 강화 이중 그래프 평가기 기반 크로스 플랫폼 교육 에이전트 벤치마크

KGCE 지식 강화 이중 그래프 평가기 기반 크로스 플랫폼 교육 에이전트 벤치마크

KGCE 논문은 현재 교육용 AI 에이전트 평가 체계가 직면한 두 가지 핵심 한계를 체계적으로 진단하고, 이를 극복하기 위한 설계 원칙을 명확히 제시한다. 첫 번째 한계는 ‘프라이빗 도메인 소프트웨어’에 대한 구조적 이해 부족이다. XiaoYa Intelligent Assistant나 HuaShi XiaZi와 같은 학교 전용 애플리케이션은 UI 흐름, API 호출 방식, 데이터 포맷 등이 일반 상용 소프트웨어와 크게 다르다. 기존 멀티모달 LLM 기반 에이전트는 사전 학습 데이터에 이러한 특수 사례가 거의 포함되지 않아, 실제 실행

Computer Science Artificial Intelligence Model
하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

하노이월드 공동 임베딩 예측 기반 세계 모델을 이용한 자율주행 차량 제어

본 논문은 자율주행 제어에 있어 강화학습(RL)이 직면한 근본적인 한계를 짚어낸 뒤, JEPA 기반 자기지도 학습이 제공할 수 있는 대안을 제시한다. 기존 RL 접근법은 보상 설계가 복잡하고, 시뮬레이션 혹은 실제 도로에서 수백만 단계에 달하는 데이터가 필요하다. 특히 픽셀 수준의 재구성 손실을 최소화하려는 목표는 고차원 입력 공간에서 잡음(노이즈) 특성을 과도하게 학습하게 만들며, 이는 정책의 불안정성과 안전성 저하로 이어진다. 인간이 새로운 기술을 습득할 때 ‘상상’과 ‘예측’ 과정을 통해 적은 경험만으로도 일반화된 모델을 구축

Computer Science Robotics Model
No Image

추론 모델의 ‘아하!’ 순간은 착각인가

이 논문은 최근 AI 커뮤니티에서 화제가 된 “추론 중 ‘아하!’ 순간”이라는 현상을 과학적으로 검증하려는 시도이다. 저자들은 먼저 기존 연구가 제시한 사례, 즉 DeepSeek‑R1‑Zero가 중간 단계에서 갑작스러운 전략 전환을 보이며 정답을 도출한다는 주장을 재현하려 했다. 이를 위해 1백만 개가 넘는 추론 트레이스를 수집하고, 각 트레이스에서 토큰 수준의 확률 변화, 내부 표현의 변동, 그리고 출력 정확도를 동시에 기록했다. 분석 대상은 자연어 질문‑답변, 수학 문제 풀이, 코딩 생성이라는 세 가지 도메인으로, 각각의 도메인

Computer Science Artificial Intelligence Model
다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

다중턴 대화 압축을 통한 방어형 가드레일 모델 학습

Defensive M2S는 기존 가드레일 모델이 전체 대화 히스토리를 입력으로 받아야 하는 구조적 한계를 근본적으로 해결한다는 점에서 의미가 크다. 다중턴 대화는 일반적으로 토큰 수가 O(n²) 수준으로 급증하는데, 이는 특히 10턴 이상으로 길어지는 실제 서비스 시나리오에서 GPU 메모리와 연산 시간의 병목을 초래한다. 논문은 이를 ‘Multi‑turn to Single‑turn (M2S)’ 압축이라는 간단하지만 효과적인 변환 규칙으로 전환한다. 구체적으로, 각 턴의 핵심 발화만을 남기고, 대화 흐름을 유지하기 위해 하이픈(–),

Computer Science NLP Model
대형 언어 모델 사실 생성의 강인한 불확실성 정량화

대형 언어 모델 사실 생성의 강인한 불확실성 정량화

이 논문은 LLM의 ‘환각’ 문제를 불확실성 정량화라는 관점에서 접근한다는 점에서 의미가 크다. 기존의 불확실성 추정 기법—예를 들어 베이지안 신경망, MC‑Dropout, 엔삼블 방법—은 주로 정형화된 QA 데이터셋에서 검증되었으며, 질문이 의도적으로 혼동을 주는 형태일 때는 신뢰도 점수가 급격히 왜곡되는 한계를 보였다. 저자들은 이러한 한계를 극복하기 위해 ‘함정 질문(trap question)’이라는 새로운 평가 도구를 설계했는데, 여기에는 실제 존재하지 않는 인물명이나 허위 사실이 삽입되어 모델이 사실을 생성하도록 유도한다.

Computer Science NLP Model
양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

양자화가 대형 언어 모델의 자기설명을 방해할까 품질과 신뢰성 종합 평가

본 논문은 양자화가 대형 언어 모델(Large Language Model, LLM)의 자기설명(self‑explanations, SE) 능력에 미치는 영향을 체계적으로 조사한 최초의 연구라 할 수 있다. 기존 연구에서는 양자화가 모델의 추론 속도와 메모리 사용량을 크게 개선한다는 점에 초점을 맞추었지만, SE와 같이 모델 내부의 추론 과정을 외부에 설명하도록 요구되는 고차원 작업에 대한 영향은 간과되어 왔다. 이 점을 메우기 위해 저자들은 두 가지 SE 유형, 즉 자연어 설명(NLE)과 반사실 예시(counterfactual exa

Computer Science NLP Model
No Image

보이지 않는 작업 조건에서의 결함 진단을 위한 다중모달 교차도메인 혼합 융합 모델 및 이중 분리 기법

이 논문은 산업 현장에서 흔히 마주치는 ‘보이지 않는 작업 조건’이라는 문제를 핵심으로 삼아, 기존 결함 진단 모델들의 일반화 한계를 체계적으로 극복하고자 한다. 첫 번째 핵심 기여는 이중 분리(disentanglement) 프레임워크 이다. 여기서는 두 차원의 분리를 동시에 수행한다. 하나는 모달리티 차원 으로, 서로 다른 센서(예: 전류, 진동, 온도)에서 추출된 특징을 ‘모달리티 불변(modality‑invariant)’과 ‘모달리티 특화(modality‑specific)’로 나눈다. 이는 각 센서가 제공하는 고유한 물리적 정

Computer Science Artificial Intelligence Model
생각 흐름으로 보는 언어 모델링

생각 흐름으로 보는 언어 모델링

이 논문은 현재 가장 널리 사용되는 트랜스포머 기반 언어 모델이 “표면적” 토큰 연관성에 과도하게 의존한다는 근본적인 한계를 짚고 있다. 토큰 수준에서만 학습이 이루어지면 모델은 문맥 전체에 걸친 일관된 엔티티·사건 표현을 구축하지 못한다. 결과적으로 “역전 저주”(예: “아버지가 아들을 낳았다”와 “아들이 아버지를 낳았다”를 구분하지 못함)와 같은 관계 일반화 오류가 발생하고, 동일한 의미를 가진 다양한 표현을 학습하기 위해 불필요하게 많은 데이터가 요구된다. 인지과학 연구에서는 인간이 언어를 처리할 때 입력 스트림을 일시적인 표

Computer Science NLP Model
No Image

테스트 시 인지 행동 이해와 조절

본 논문은 현재 LLM이 복잡한 문제 해결에 흔히 사용하는 CoT(Chain‑of‑Thought) 방식이 “과다 토큰 생성”과 “불안정한 사고 흐름”이라는 두 가지 주요 병목을 안고 있다는 점을 정확히 짚어낸다. 저자들은 먼저 대규모 모델(예: GPT‑NeoX, LLaMA)에서 추론 시 생성되는 토큰 시퀀스를 단계별로 분석하고, 각 단계가 어떤 인지적 역할을 수행하는지 메타데이터화한다. 이 과정에서 특히 ‘검증(verification)’ 단계와 ‘역추적(backtracking)’ 단계가 별도의 어텐션 헤드에 집중되어 있다는 사실을

Computer Science NLP Model
No Image

대규모 언어모델 사전지식을 활용한 전단계 인과 발견 프레임워크

HOLOGRAPH 논문은 인과 구조 학습이라는 오래된 문제에 최신 인공지능 기술을 수학적으로 결합한 시도라 할 수 있다. 전통적인 인과 발견 방법은 조건부 독립성 검정이나 구조적 방정식 모델을 기반으로 하지만, 관측 데이터만으로는 동일한 마르코프 등가 클래스 내의 여러 그래프를 구분하기 어렵다. 이 한계를 극복하기 위해 연구자들은 외부 지식, 특히 인간이 만든 지식 그래프나 도메인 전문가의 의견을 사전확률로 도입해 왔다. 최근에는 LLM이 방대한 텍스트 코퍼스를 학습함으로써 “인과적 직관”을 내포하고 있다는 점에 주목해, LLM을

Machine Learning Computer Science Model
잠재 계획을 활용한 대형 언어 모델 추론

잠재 계획을 활용한 대형 언어 모델 추론

iCLP는 기존 “체인‑오브‑생각”(CoT) 접근법의 두 가지 한계를 동시에 해결하려는 시도이다. 첫 번째는 인간이 문제를 풀 때 텍스트로 명시적인 계획을 세우지 않더라도, 과거 경험에서 추출된 압축된 패턴을 무의식적으로 활용한다는 점이다. 이러한 암묵적 인지는 LLM이 직접 텍스트 계획을 생성할 때 발생하는 “환각”(hallucination) 문제를 회피할 수 있는 가능성을 제공한다. 두 번째는 다양한 도메인과 질문 형태에 대해 일관된 텍스트 계획을 설계하는 것이 비현실적이라는 점이다. iCLP는 명시적 계획을 먼저 수집하고, 이

Computer Science NLP Model
대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

본 연구는 현재 컴퓨터 비전 분야에서 가장 큰 도전 과제 중 하나인 “대규모 사전 학습 모델을 데이터가 부족한 특수 도메인에 효과적으로 전이시키는 방법”을 해결하고자 한다. 기존의 파인튜닝 방식은 사전 학습된 가중치를 그대로 사용하거나, 전체 네트워크를 미세조정하는 방식에 머물러 있어, 도메인 간 분포 차이가 클 경우 과적합이나 표현 손실이 발생한다. CLAdapter는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, 클러스터 중심을 활용해 입력 특징 공간을 여러 개의 의미론적 그룹으로 나누고, 각 클러스터에

Data Model
심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

본 논문은 심장기능 진단에 중요한 역할을 하는 LVEF를 추정하기 위해 다양한 딥러닝 아키텍처의 성능을 평가하고 있습니다. 초음파心动图作为一种常用的临床工具,用于评估心脏功能,但手动分析存在时间成本高和观察者间变异性大的问题。深度学习方法的引入为这个问题提供了一个有潜力的解决方案。本研究中,作者探讨了三种不同的深度学习架构:3D Inception、双流模型以及CNN RNN模型,并对这些模型进行了系统性的评估以确定最佳配置。实验结果表明,经过修改后的3D Inception架构表现最优,其均方根误差(RMSE)为6.79%。此外,研究还发现较小且简单的模型在泛化能力上优于复杂

Model Learning
대형 언어 모델의 선호도 정합성: 알려지지 않은 링크 함수에 대한 강건한 접근

대형 언어 모델의 선호도 정합성: 알려지지 않은 링크 함수에 대한 강건한 접근

이 논문은 대형 언어 모델(LLMs)의 선호도 정합성 문제를 다루며, 특히 알려지지 않은 링크 함수에 대한 접근법을 제시한다. 보통 LLMs는 특정 연결 함수(예: 로짓 브라들리 테리 연결)를 가정하여 관찰된 선호와 잠재적 보상 사이의 관계를 모델링하는데, 이러한 연결 함수가 잘못 지정되면 추론된 보상과 학습된 정책이 불일치하게 된다. 논문은 알려지지 않은 링크 함수에 대해 f 분산 제약 조건 하에서 보상 최대화의 실현 가능성 문제를 다루며, 이를 통해 반파라메트릭 단일 인덱스 이진 선택 모델을 유도한다. 이 모델에서는 정책 종속

Model
셀프 호스팅 LLM을 위한 스마트 오케스트레이션 프레임워크 Pick and Spin

셀프 호스팅 LLM을 위한 스마트 오케스트레이션 프레임워크 Pick and Spin

본 연구는 대규모 언어 모델을 자체 데이터센터에 구축하려는 기업·기관을 대상으로, 기존의 정적 배포 방식이 안고 있던 비효율성을 근본적으로 개선하고자 하는 시도이다. 첫 번째 핵심 문제는 GPU 자원의 비정상적 사용이다. LLM은 모델 크기에 따라 수십에서 수백 개의 GPU가 필요하지만, 실제 요청량은 시간대별, 서비스별로 크게 변동한다. 정적 할당은 피크 시점에는 성능 저하, 비피크 시점에는 자원 낭비를 초래한다. 두 번째는 다양한 모델과 워크로드를 동시에 운영할 때 발생하는 라우팅 복잡성이다. 모델마다 정확도·응답시간·비용 특성

Model
생물학적 언어 모델을 위한 반사 사전학습과 사고 토큰 확장

생물학적 언어 모델을 위한 반사 사전학습과 사고 토큰 확장

Chain of Thought(CoT) 프롬프트는 최근 자연어 처리 분야에서 가장 주목받는 기법 중 하나이다. 기존의 “질문‑답변” 형태 프롬프트는 모델이 바로 최종 답을 출력하도록 강요하지만, CoT는 모델이 중간에 논리적·수학적 추론 과정을 텍스트 토큰 형태로 서술하도록 만든다. 이러한 “비답변 토큰”은 모델이 복잡한 연산을 단계별로 풀어가게 함으로써, 특히 다중 단계 논리, 수식 전개, 혹은 코드 생성과 같은 작업에서 오류율을 크게 낮춘다. CoT가 성공을 거둘 수 있었던 핵심은 두 가지이다. 첫째, 인간 언어 자체가 풍부한

Model
기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

본 논문은 사전 학습된 대형 모델(Pre‑trained Foundation Models, 이하 PFM)이 멀티모달 학습에서 차지하는 전략적 위치를 재조명한다. 기존의 “pre‑train, prompt, predict” 흐름은 파라미터를 직접 업데이트하는 전통적인 미세조정 방식과 달리, 프롬프트 토큰을 삽입하거나 템플릿을 설계함으로써 모델 자체는 고정된 채 외부 입력만으로 작업을 수행하도록 만든다. 이러한 접근은 파라미터 효율성을 크게 높였지만, 여전히 “기억 중심”의 일반화 한계에 직면한다. 구체적으로, 제한된 라벨 데이터만으로 프

Model Learning
체인오브생각 기반 대형언어모델이 뇌 전이 방사선 수술 자동계획에 미치는 영향

체인오브생각 기반 대형언어모델이 뇌 전이 방사선 수술 자동계획에 미치는 영향

본 연구는 인공지능 기반 치료 계획 시스템이 임상 현장에서 신뢰를 얻기 위해서는 ‘설명 가능성’이 필수적이라는 가정을 검증한다. 기존의 대형언어모델(LLM) 기반 자동화는 높은 성능에도 불구하고 내부 의사결정 과정을 검증할 수 없다는 한계가 있었다. 이를 극복하고자 연구팀은 ‘체인오브생각(Chain‑of‑Thought, CoT)’이라는 사고 흐름을 명시적으로 생성하도록 프롬프트를 설계하였다. CoT는 모델이 문제를 단계별로 분해하고, 각 단계에서 제약조건을 확인하며, 가능한 대안을 논의하도록 유도한다. 이러한 과정은 최종 선량 최적

Model
상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

이 논문은 인공지능, 특히 대형 멀티모달 모델(LMM)이 “상태 변화(state transition)”를 얼마나 잘 이해하고 추론할 수 있는지를 평가하기 위한 새로운 벤치마크를 제안한다. 기존의 평가 체계는 대부분 정적인 상황, 즉 하나의 이미지 혹은 영상 프레임에 대한 질문에 국한된다. 예를 들어 “침대 옆 서랍이 열려 있나요?”와 같은 질문에 대해 모델이 “열림” 혹은 “닫힘”이라는 단일 답변을 제시하도록 요구한다. 이러한 접근은 인간이 일상 생활에서 경험하는 “시간에 따른 변화”를 포착하지 못한다. 인간은 동일한 물체가 시간

Model
대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

이 논문은 최근 급부상하고 있는 대조적 비전‑언어 모델(VLM)을 보상 함수 학습에 적용하는 연구 흐름을 비판적으로 재조명한다. 기존 연구들은 VLM을 활용해 인간 라벨링 없이도 로봇 제어나 강화학습 환경에서 사용할 수 있는 풍부한 보상 신호를 생성한다는 점에서 큰 기대를 모았다. 그러나 이러한 연구들은 서로 다른 사전학습 데이터셋(예: CLIP, ALIGN), 서로 다른 네트워크 아키텍처(ResNet, ViT), 그리고 서로 다른 파인튜닝 프로토콜을 사용했기 때문에, 실제로 어느 학습 목표가 성능 향상에 기여했는지를 명확히 파악하

Learning Model
AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

KineST는 AR/VR 애플리케이션에서 전신 동작 추적이 중요한 역할을 하는 상황에서, 헤드 마운트 디스플레이를 통해 얻은 제한적인 신호로 실제이고 다양한 동작을 재구성하는 문제에 초점을 맞춥니다. 기존의 방법들은 높은 계산 비용이나 별도의 공간적과 시간적 의존성을 모델링함으로써 정확성, 시계열 일관성 및 효율성 사이에서 균형을 맞추는 것이 어렵다는 문제를 해결하기 위해 KineST가 제안되었습니다. 이 모델은 두 가지 핵심 아이디어로 구성됩니다: 첫째, 상태공간 이중성 프레임워크 내의 스캐닝 전략을 동역학 지향 양방향 스캔으로

Model
사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

이 논문은 사회 미디어 플랫폼에서 혐오 발언과 거짓 정보의 확산 문제를 다루며, 특히 코드믹스 힌디 영어 텍스트에서 가짜 이야기에 의해 유발된 혐오 발언을 감지하는 Faux Hate 공동 작업을 탐구합니다. 이 연구는 두 가지 주요 하위 작업을 수행하는데, 첫째로 이진 Faux Hate 감지는 거짓과 혐오 발언을 분류하고, 둘째로 대상 및 심각성 예측은 혐오 발언의 목표와 그 정도를 범주화합니다. 연구팀이 개발한 시스템은 고급 자연어 처리 기술과 도메인 특异性预训练相结合,旨在提高这两项任务的性能。该系统在比赛中取得了有竞争力的结果,证明了

Model Learning
정보 검색 시스템의 재순위화: 기술의 발전과 미래

정보 검색 시스템의 재순위화: 기술의 발전과 미래

본 논문은 정보 검색(IR) 시스템에서 재순위화가 중요한 역할을 하는 이유와 그 발전 과정을 체계적으로 분석합니다. 특히, 최근의 Retrieval Augmented Generation (RAG) 파이프라인에 중점을 두고 있습니다. RAG는 검색된 문서들이 출력 품질에 큰 영향을 미치므로 재순위화 기법의 중요성이 더욱 부각됩니다. 논문은 재순위화 기법의 역사적 발전 경로를 탐구하며, 초기 접근 방식에서 시작해 다양한 신경망 아키텍처까지 다룹니다. 이 중에는 크로스 인코더, T5와 같은 시퀀스 생성 모델, 구조적 정보를 활용하는 그래

Model
No Image

주제 모델의 최적 주제 수 선택: 진화 알고리즘 vs. 학습 기반 최적화

본 연구에서는 LDA 모델에서 주제 수 T를 선택하는 문제를 이산 블랙박스 최적화 문제로 정식화하고, 이를 해결하기 위한 다양한 최적화 방법들을 비교한다. 특히, 본 논문은 GA와 ES라는 두 가지 진화 알고리즘과 PABBO 및 SABBO라는 학습 기반 앰ORTIZED 접근법을 평가한다. 이러한 접근법들은 각각의 장단점을 가지고 있으며, 실험 결과를 통해 그 효율성을 비교한다. GA와 ES는 전통적인 진화 알고리즘으로서, 다양한 해의 조합을 생성하고 선택 과정을 거쳐 최적해에 도달하려고 노력한다. 이러한 방법은 복잡한 문제 공간에서

Model
JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

이 논문은 MLLMs의 시각적 이해력 향상을 위해 JARVIS라는 새로운 프레임워크를 제안한다. 기존 MLLMs는 주로 언어적인 설명을 통해 학습하므로, 이에 따른 한계점이 존재한다. 특히, 언어 기반 감독 신호의 주관성과 불완전함으로 인해 시각적 추론 능력이 제한적이며, 다중모달 지시어 튜닝의 규모가 작아 시각적 세부 사항을 무시하는 경향이 있다. JARVIS는 이러한 문제를 해결하기 위해 JEPA 학습 패러다임을 MLLMs 훈련 파이프라인에 통합한다. 이 프레임워크는 동결된 시각 기반 모델을 활용하여 예측기를 훈련시키고, 언어

Model Learning
다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

이 논문은 바이오필름 성장 모델링 분야에서 ‘하이브리드 불확실성’이라는 복합적인 난제를 해결하려는 시도로 눈길을 끈다. 기존의 베이지안 모델 업데이트는 주로 인식 불확실성만을 고려하거나, 우연 불확실성을 별도의 몬테카를로 시뮬레이션으로 처리해 이중 루프 구조를 취한다. 이중 루프는 매 반복마다 고비용의 전방 시뮬레이션을 수행해야 하므로 계산량이 급격히 증가하고, 실시간 혹은 대규모 파라미터 탐색에 부적합하다. 저자들은 이러한 한계를 극복하기 위해 시간분리 확률역학(TSM) 기반 차원축소 모델(ROM)을 도입한다. TSM은 시스템의

Model
No Image

언어모델의 성능 향상을 위한 도구 호출 최적화

본 논문은 언어 모델(LMs)의 성능 향상을 위해 도구 호출에 대한 최적화 방법을 제안하고 있습니다. LMs는 외부 도구와 상호작용하여 파일 검색, 코드 실행, API 호출 등을 수행하며, 이러한 작업들은 추론 과정에서 병목 현상이 발생할 수 있는 주요 원인입니다. 논문에서는 이 문제를 해결하기 위해 도구 호출을 예측하고 인퍼런스 엔진에 시퀀스를 최소한의 오버헤드로 유지하는 방법을 제안합니다. 제안된 최적화 기법은 LM 에이전트의 처리량을 크게 향상시킵니다. 특히, 초당 수백 토큰의 처리량 향상을 보여주며, 이는 LMs가 복잡한 추

Model
문제 모델링을 통한 안정적인 계획 수립

문제 모델링을 통한 안정적인 계획 수립

이 논문은 대형 언어 모델(LLMs)이 복잡한 계획 작업에서 제약 위반, 일관성 없는 상태 추적 및 취약한 솔루션을 생성하는 문제를 해결하기 위해 Model First Reasoning(MFR)이라는 새로운 접근법을 제안합니다. MFR은 두 단계로 구성되는데, 첫 번째 단계에서는 LLM이 문제의 구조화된 모델을 명시적으로 구성하고, 두 번째 단계에서는 이 모델에 대한 추론 및 계획을 수행합니다. 이러한 방법은 인간의 과학적 추론, 고전 AI 계획, 그리고 의사결정 인지 모델에서 영감을 받아 제안되었습니다. 실험 결과 MFR은 다양한

Model
현대 프로세서 설계에서의 정확하고 효율적인 전력 모델링: ReadyPower 프레임워크

현대 프로세서 설계에서의 정확하고 효율적인 전력 모델링: ReadyPower 프레임워크

본 논문의 핵심은 현대 프로세서 설계에서 전력 모델링의 중요성을 강조하고, 이를 위해 고전적인 분석형 아키텍처 수준의 전력 모델과 ML 기반 전력 모델의 한계를 지적하며 새로운 접근 방식을 제안하는 것입니다. ReadyPower 프레임워크는 기존의 문제점을 해결하기 위해 다양한 수준의 매개변수를 도입하여 McPAT 분석 모델에 통합함으로써, 고정밀도와 신뢰성을 제공합니다. ReadyPower의 주요 장점은 세 가지입니다: 첫째, 신뢰성. ReadyPower는 실제 프로세서 구현과 아키텍처 수준의 분석 모델 간의 불일치를 해결함으로써

Framework Model
레몬: 3D 공간 이해를 위한 통합 변형 모델

레몬: 3D 공간 이해를 위한 통합 변형 모델

이 논문은 대규모 다중 모달 모델(LMMs)의 한계를 극복하고, 특히 3D 데이터 이해에 필요한 새로운 접근법을 제시하고 있습니다. Lemon이라는 이름의 모델은 기존의 분리된 아키텍처와 달리 통합 변형 아키텍처를 사용하여 점 클라우드 데이터와 언어 토큰을 동시에 처리하는 능력을 제공합니다. 이 접근법은 중복되는 인코더를 제거하고, 파라미터 효율성을 높이며, 모델의 확장을 더 효과적으로 지원함으로써 기존의 문제점을 해결합니다. 또한, Lemon은 3D 데이터의 특성에 맞게 구조화된 패치화 및 토큰화 방식을 개발하여 공간적 맥락을 유

Model
주제 중심 이미지 생성의 진화: Scone으로 구현되는 통합 이해 생성 방법

주제 중심 이미지 생성의 진화: Scone으로 구현되는 통합 이해 생성 방법

이 논문은 주제 중심 이미지 생성 분야에서 중요한 이슈를 다루고 있다. 특히, 단일 주제에서 다중 주제로의 전환 과정에서 발생하는 구분력 부족 문제에 집중한다. Scone이라는 새로운 접근법을 제시함으로써, 이 논문은 이미지 생성 모델이 복잡한 시나리오에서도 효과적으로 작동할 수 있도록 하는 데 중점을 두고 있다. Scone의 핵심 아이디어는 이해 전문가와 생성 전문가 사이에 의미적인 다리를 만드는 것이다. 이 다리는 입력된 여러 주제들 중에서 올바른 주제를 식별하고 그 정체성을 유지하는 데 필수적이다. 두 단계 훈련 방식을 통해

Model
현대 대형 언어 모델의 의식: 가설 검증과 연속 학습의 관점

현대 대형 언어 모델의 의식: 가설 검증과 연속 학습의 관점

본 논문은 현대 대형 언어 모델(LLMs)의 의식 가능성에 대한 철학적이고 과학적인 접근법을 제시하고 있습니다. 저자는 증명 불가능성과 비자명성을 충족하는 이론이 있어야 한다는 요구 사항을 강조하며, 이를 통해 현대 LLMs의 의식 가능성을 검증합니다. 논문은 기존의 인과 구조와 기능에 기반한 의식 이론들이 이러한 요구 조건을 만족하지 못한다는 점을 지적하고 있습니다. LLMs는 입력/출력 기능 측면에서 특정 시스템들과 동등하기 때문에, 그들에 대한 의식 가능성은 증명 불가능성과 비자명성을 충족하는 이론이 존재해야 합니다. 그러나

Learning Model
희소 상황에 대응하는 인간 영감 학습 방법 탐구

희소 상황에 대응하는 인간 영감 학습 방법 탐구

이 논문은 대형 언어 모델(LLMs)의 한계를 극복하기 위해 인간 학습 과정에서 영감을 얻는 새로운 접근법을 제안하고 있습니다. LLMs은 큰 규모의 데이터로부터 일반적인 패턴을 추출하는 데 탁월하지만, 희귀하거나 저자원 상황에서는 이러한 패턴이 데이터 내에 충분히 나타나지 않아 예측 능력이 제한됩니다. 이 문제를 해결하기 위해 논문은 두 가지 메커니즘을 통합하는 인간 영감 학습 프레임워크를 제안합니다: 첫 번째로, '명시적 기록'은 원인 결과 또는 질문 해결책 관계를 상징적 메모리에 저장하여 단일 또는 불규칙한 경험에서도 지속적인

Learning Model
AI 모델 문서 투명성 표준화: 현황과 격차

AI 모델 문서 투명성 표준화: 현황과 격차

이 논문은 AI 모델 문서의 투명성 문제를 체계적으로 분석하고 해결하기 위한 프레임워크를 제시합니다. 특히, 다양한 플랫폼에서 제공되는 AI 모델 문서는 구조와 내용에 일관성이 부족하여 사용자들이 필요한 정보를 쉽게 찾기 어렵다는 점을 지적합니다. 이를 해결하기 위해 EU AI Act Annex IV와 스탠퍼드 투명성 지수를 기반으로 한 가중 투명도 프레임워크를 개발하였습니다. 이 프레임워크는 안전성이 중요한 공개 사항을 우선시하며, 이를 통해 모델의 안전성을 평가하는 데 필요한 정보를 체계적으로 제공합니다. 또한, 논문은 AI 모

Model Framework
정확한 변동성 예측을 위한 하이브리드 모델링 프레임워크: SV LSTM의 성능 분석

정확한 변동성 예측을 위한 하이브리드 모델링 프레임워크: SV LSTM의 성능 분석

본 연구는 금융 시장에서 변동성 예측의 중요성을 강조하며, 이를 위해 확률적 변동성(SV) 모델과 장단기 메모리(LSTM) 신경망을 통합한 하이브리드 모델링 프레임워크를 제안한다. SV 모델은 통계적인 정확성과 잠재적인 변동성 동태를 포착하는 능력을 제공하며, 특히 예상치 못한 사건에 대한 반응에서 유용하다. 한편, LSTM 네트워크는 금융 시계열 데이터에서 복잡하고 비선형 패턴을 감지할 수 있는 능력이 있어, SV 모델의 통계적 정확성과 결합하여 더 우수한 예측 성능을 제공한다. 본 연구에서는 S&P 500 지수 일별 데이터를 사

Network Model
FPGA를 활용한 3D 포인트 클라우드 모델의 고속 처리: HLS4PC 프레임워크

FPGA를 활용한 3D 포인트 클라우드 모델의 고속 처리: HLS4PC 프레임워크

이 논문은 고속 처리를 위해 FPGA 기반의 HLS4PC 프레임워크를 제시하고, 이를 통해 3D 포인트 클라우드 모델의 효율적인 처리를 가능하게 합니다. 특히, PointMLP Elite 모델에 대한 다양한 압축 기법을 적용하여 복잡성을 줄이면서도 정확도 하락을 최소화하는 PointMLP Lite 변형을 개발하였습니다. 이는 3D 포인트 클라우드 데이터의 특성상 GPU에서 발생하는 계산 및 메모리 요구 사항의 문제를 해결하고, 실시간 성능을 향상시키는데 기여합니다. 또한, FPGA 가속화를 통해 CPU와 GPU에 비해 높은 처리량을

Model Framework
축구 마스터: 통합 축구 비전 모델

축구 마스터: 통합 축구 비전 모델

축구 마스터는 축구 관련 이미지와 동영상 자료를 활용하여 다양한 축구 관련 작업을 수행할 수 있는 통합 비전 모델입니다. 이 모델은 주석 생성, 감지, 추적, 분류 등과 같은 여러 가지 축구 이해 작업에 적용될 수 있습니다. SoccerMaster는 축구 콘텐츠의 다양성을 활용함으로써, 축구 관련 데이터로부터 얻을 수 있는 정보를 최대한 활용하여 보다 정확하고 효과적인 결과를 도출합니다. 이러한 모델은 축구 분석, 선수 평가, 경기 전략 등 다양한 영역에서 활용될 수 있으며, 특히 실시간 주석 생성과 같은 빠른 의사결정이 필요한 상

Model
Stable Diffusion에서 색채가 잠재 공간에 어떻게 인코딩되는가

Stable Diffusion에서 색채가 잠재 공간에 어떻게 인코딩되는가

본 논문은 최신 확산 모델인 Stable Diffusion의 내부 표현 메커니즘을 색채라는 구체적인 지각 속성에 초점을 맞추어 파헤친다. 연구자는 먼저 색상과 형태가 명확히 구분된 합성 이미지 데이터셋을 제작하였다. 이 데이터셋은 색상만을 변형시키는 버전과 형태만을 변형시키는 버전으로 구성돼 있어, 각 속성이 잠재 공간에 어떻게 매핑되는지를 독립적으로 측정할 수 있다. 잠재 표현을 분석하기 위해 저자는 Stable Diffusion의 UNet 인코더 단계에서 추출한 중간 특징 맵을 벡터화하고, 전체 데이터셋에 대해 주성분 분석(PC

Model
No Image

큰 언어 모델의 추론 메커니즘: 확률적 기반과 인간 추론의 유사성

이 논문은 대형 언어 모델(LLMs)에서 토큰 완성 기반의 추론 메커니즘을 탐구하며, 특히 이러한 LLMs이 학습된 연관성을 통해 생성되는 텍스트와 인간의 추측적 추론(abductive reasoning) 사이의 유사성을 분석한다. 논문은 LLMs가 직접적인 진리나 의미를 기반으로 하지 않고도 가능성이 있는 가설을 제시하고, 상식적 추론을 시뮬레이션하며, 설명적인 답변을 제공하는 방식을 통해 그들의 출력이 실제 추측적 추론과 유사하게 보일 수 있다는 점에 주목한다. 이러한 모델의 확률적 핵심과 애플리케이션에서 나타나는 추측적 추론의

Model
핸드 오브젝트 그립을 위한 3D 포즈 추정 CLIP과 DINOv2 시각 모델 비교

핸드 오브젝트 그립을 위한 3D 포즈 추정 CLIP과 DINOv2 시각 모델 비교

본 연구는 최근 급부상한 비전 파운데이션 모델(VFM)과 비전‑언어 모델(VLM)이 로봇 조작, 특히 손‑물체 그립 상황에서 6D 객체 포즈 추정에 어떻게 다른 강점을 발휘하는지를 체계적으로 비교한다. CLIP은 대규모 이미지‑텍스트 쌍으로 사전 학습된 멀티모달 모델로, 언어와 시각 정보를 정렬함으로써 “컵”, “핸들” 등 객체의 의미적 카테고리를 강력히 인식한다. 이러한 의미적 이해는 복잡한 장면에서 객체를 정확히 구분하고, 인간이 제공하는 자연어 명령과의 매핑을 용이하게 만든다. 그러나 CLIP의 특징은 주로 전역적인 토큰 임베

Model
확산 기반 통계 다운스케일링으로 고해상도 날씨 예보 구현

확산 기반 통계 다운스케일링으로 고해상도 날씨 예보 구현

본 연구는 수치예보 분야에서 고해상도 예보를 실시간으로 제공하기 위한 핵심 기술인 통계적 다운스케일링을 딥러닝 기반 확산 모델에 적용한 점에서 큰 의의를 가진다. 기존의 CorrDiff 프레임워크는 주로 표면 변수와 제한된 지역에 초점을 맞추었으나, 본 논문은 적용 영역을 약 40배 확대하여 중국 전역을 포괄하고, 6개의 기압 레벨에 해당하는 고층 변수까지 포함함으로써 모델의 일반화 능력을 크게 강화하였다. 이는 대기 현상이 수직적으로도 복잡하게 얽혀 있음을 고려한 설계로, 특히 강수·대류·제트 스트림 등 고층 동역학을 정확히 재현

Model
동작 확산 모델의 표현 방식과 손실 함수 선택이 성능에 미치는 영향에 대한 체계적 분석

동작 확산 모델의 표현 방식과 손실 함수 선택이 성능에 미치는 영향에 대한 체계적 분석

본 논문은 최근 급부상하고 있는 인간 동작 합성용 확산 모델의 핵심 설계 요소인 ‘동작 표현 방식’과 ‘손실 함수’를 체계적으로 검증한 점에서 학술적·실용적 의의가 크다. 먼저, 저자는 기존 연구에서 제안된 6가지 대표적인 동작 표현(예: 관절 각도, 관절 위치, 회전 행렬, 쿼터니언, 속도·가속도 기반 표현, 그리고 혼합형 표현)을 동일한 MDM 기반 프레임워크에 적용해 비교하였다. 이때 사용된 평가지표는 흔히 쓰이는 Frechet Inception Distance(FID)와 Diversity Score 등으로, 품질과 다양성을

Model
시각언어모델의 발화감정 모호성 해소와 심리대화 이해를 위한 다중수준 인사이트 네트워크

시각언어모델의 발화감정 모호성 해소와 심리대화 이해를 위한 다중수준 인사이트 네트워크

본 논문은 인간 대화의 비언어적 단서를 시각‑언어 모델에 통합하려는 시도 중 가장 포괄적인 접근법이라 할 수 있다. 첫 번째 문제인 ‘발화‑감정 모호성’은 입술 움직임이 감정 표현과 겹쳐 보이는 현상으로, 기존 VLM이 텍스트와 이미지 간의 연관성을 학습할 때 이중 의미를 구분하지 못해 심리적 추론에 오류를 일으킨다. MIND는 이러한 모호성을 해결하기 위해 계층적 구조를 채택하고, 각 레이어에서 시간적 특징 분산을 계산해 변동성이 낮은(즉, 감정과 무관한) 입술 패턴을 억제한다. 이 ‘상태 판단’ 모듈은 기존의 단순 attenti

Analysis Model
모듈형 트랜스듀서 기반 세계 모델 분해 프레임워크

모듈형 트랜스듀서 기반 세계 모델 분해 프레임워크

이 논문이 제시하는 핵심 아이디어는 ‘트랜스듀서’를 이용해 세계 모델을 모듈화하고, 그 모듈들을 역으로 분해함으로써 병렬 처리와 해석 가능성을 동시에 확보한다는 점이다. 트랜스듀서는 관측·행동·보상 등 복합적인 상호작용을 하나의 입력‑출력 관계로 추상화한 구조로, POMDP(부분 관측 마코프 결정 과정)를 일반화한다. 기존 연구에서는 여러 트랜스듀서를 순차적으로 연결해 복잡한 시스템을 구성하는 ‘합성’ 방법이 주로 다루어졌으며, 이는 설계 단계에서는 직관적이지만 실제 운용 단계에서는 전체 모델이 거대해져 연산 비용이 급증하고, 내부

Model
시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

본 논문은 현대 센서 네트워크가 직면한 두 가지 근본적인 한계, 즉 측정 포인트의 희소성 및 시뮬레이션 모델의 불완전성을 동시에 해결하려는 시도로서, 머신러닝 기반 데이터 동화 프레임워크 DA‑SHRED 를 제시한다. 기존 데이터 동화 기법은 주로 칼만 필터, 변분 동화, 혹은 최근의 딥러닝 기반 접근법에 의존해 왔으며, 이들은 고차원 상태 공간을 직접 다루는 경우 계산 비용이 급격히 증가하거나, 물리적 제약을 충분히 반영하지 못한다는 문제점을 안고 있다. DA‑SHRED 는 이러한 문제점을 회피하기 위해 먼저 SHRED 라는 얕은

Data Model
색채 위장 이미지 이해를 위한 대규모 멀티태스크 벤치마크

색채 위장 이미지 이해를 위한 대규모 멀티태스크 벤치마크

본 논문은 현재 Vision‑Language Model(VLM)이 직면한 핵심 한계인 ‘피겨‑그라운드 구분’ 문제를 정량적으로 평가하기 위해 매우 체계적인 벤치마크를 설계했다는 점에서 의미가 크다. 기존 VLM 평가 데이터셋은 주로 명확한 객체와 배경을 구분할 수 있는 이미지에 초점을 맞추었으며, 색채 위장(camouflage)과 같이 인간의 시각 시스템조차도 인지하기 어려운 상황을 충분히 반영하지 못했다. ChromouVQA는 이러한 공백을 메우기 위해 이시하라 점 플레이트(Ishihara plates)를 변형한 색채 위장 이미지

Model

< 분야별 논문 현황 (Total: 810) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
11

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키