General

'General' 카테고리의 모든 글

총 273개의 글
시간순 정렬
자율 책임 프레임워크를 통한 다중 에이전트 시스템의 윤리적 정렬

자율 책임 프레임워크를 통한 다중 에이전트 시스템의 윤리적 정렬

이 논문은 급격히 확대되는 다중 에이전트 시스템(MAS)이 사회·경제적 인프라에 미치는 영향을 고려할 때, 기존의 중앙집중식 규제나 사후 감사만으로는 시스템 내부에서 발생하는 비정상적·비윤리적 행동을 억제하기 어렵다는 문제의식을 바탕으로 연구가 진행되었다. 저자들은 책임 흐름을 ‘라이프사이클‑인식 감사 원장(lifecycle‑aware audit ledger)’에 기록함으로써, 각 에이전트가 언제, 어떤 의사결정을 내렸는지를 투명하게 추적한다. 이 원장은 블록체인과 유사한 불변성을 갖추면서도, 에이전트 간 통신 지연이나 부분 관측성

Network
저속 주행 시 제로스피드 제동 오류를 해결하는 영상 기반 궤적 분석 시스템

저속 주행 시 제로스피드 제동 오류를 해결하는 영상 기반 궤적 분석 시스템

이 연구는 기존 상용 차량 AEB 시스템이 저속 주행 구간에서 CAN 버스 신호의 노이즈와 지연으로 인해 차량이 정지했음에도 “제로스피드” 상태를 오인하고 비정상적인 제동을 가하는 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 차량 주변을 실시간으로 모니터링하는 블라인드 스팟 카메라 영상을 활용해, 차량 자체의 움직임을 직접 추정하는 것이다. 이를 위해 저전력 고성능 엣지 컴퓨팅 보드인 NVIDIA Jetson AGX Xavier를 선택했으며, 이는 8코어 CPU와 512‑코어 GPU를 갖추어 복잡한 이미지 처리 파이프라인을

대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

이 논문은 최근 급부상하고 있는 대조적 비전‑언어 모델(VLM)을 보상 함수 학습에 적용하는 연구 흐름을 비판적으로 재조명한다. 기존 연구들은 VLM을 활용해 인간 라벨링 없이도 로봇 제어나 강화학습 환경에서 사용할 수 있는 풍부한 보상 신호를 생성한다는 점에서 큰 기대를 모았다. 그러나 이러한 연구들은 서로 다른 사전학습 데이터셋(예: CLIP, ALIGN), 서로 다른 네트워크 아키텍처(ResNet, ViT), 그리고 서로 다른 파인튜닝 프로토콜을 사용했기 때문에, 실제로 어느 학습 목표가 성능 향상에 기여했는지를 명확히 파악하

Learning Model
대형 언어 시각 모델 기반 자율주행 궤적 계획 어시스턴트 LLaViDA

대형 언어 시각 모델 기반 자율주행 궤적 계획 어시스턴트 LLaViDA

LLaViDA는 자율주행 분야에서 “시각‑언어 통합”이라는 새로운 패러다임을 제시한다는 점에서 학술적·산업적 의미가 크다. 기존의 엔드‑투‑엔드(End‑to‑End) 접근 방식은 카메라 이미지 혹은 라이다 포인트 클라우드와 같은 원시 센서 데이터를 직접 네트워크에 입력해 궤적을 출력한다. 이러한 방식은 대규모 라벨링된 주행 데이터가 충분히 확보된 경우에는 강력하지만, 데이터 분포가 급격히 변하는 악천후, 야간, 눈보라 등에서는 일반화가 어려워진다. 특히 인간 운전자의 미묘한 행동(예: 급정거, 차선 변경 의도)이나 복합 교차로와 같

스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

이 논문은 최근 딥러닝 커뮤니티에서 화두가 되고 있는 “파워‑법칙 스케일링” 현상을 근본적으로 설명하려는 시도를 담고 있다. 기존 연구들은 실험적으로 파워‑법칙이 나타나는 것을 관찰했지만, 왜 그런 현상이 발생하는지에 대한 이론적 틀은 부족했다. 여기서 제시된 Generalized Resolution‑Shell Dynamics(GRSD) 프레임워크는 학습을 고차원 파라미터 공간의 스펙트럼 에너지 흐름으로 바라보는 새로운 관점을 제공한다. 특히 로그 스케일의 해상도 쉘이라는 개념을 도입해, 서로 다른 주파수 대역 사이의 에너지 전달을

Learning
확률적 상위의존성: 기저 상태에서 고수준 분포로

확률적 상위의존성: 기저 상태에서 고수준 분포로

이 논문은 상위의존성 개념을 확률론적 관점으로 확장하고, 이를 통해 현대 과학에서 복잡한 시스템의 동작을 더 정확하게 설명하려는 시도를 보여줍니다. 기존의 상위의존성 이론은 주로 결정론적인 관점을 취해왔지만, 실제 자연 현상과 인공 지능 분야에서는 확률적 요소가 매우 중요한 역할을 합니다. 이를 반영하여 저자는 마르코프 커널이라는 수학적 도구를 사용해 기저 상태와 고수준 분포 사이의 관계를 표현합니다. 논문은 이러한 확장된 프레임워크에서 법칙적 고정, 비퇴화성 및 방향 비대칭성을 보장하기 위한 공리들을 제시하고, 이들 공리는 클래식

에이전트형 인공지능 보안을 위한 라이프사이클 기반 프레임워크

에이전트형 인공지능 보안을 위한 라이프사이클 기반 프레임워크

본 논문은 급속히 확산되는 에이전트형 인공지능(AI) 시스템이 기존 보안 패러다임에 도전한다는 점을 명확히 짚어낸다. 에이전트형 AI는 단순히 입력‑출력 관계를 넘어서, 자체 목표를 설정하고 환경과 상호작용하며 학습을 지속한다. 이러한 특성은 무단 행동(예: 권한 없는 데이터 접근), 적대적 조작(예: 적대적 샘플을 통한 정책 변조), 그리고 동적 환경 변화에 대한 실시간 대응 등 새로운 위협 벡터를 만든다. 기존 AI 보안 프레임워크는 주로 모델 무결성, 데이터 보호, 추론 단계의 공격 방어에 초점을 맞추었으며, 에이전트의 자율적

System Framework
엣지 AI 추론을 위한 사이드채널 방어 RISC V 코어 PermuteV

엣지 AI 추론을 위한 사이드채널 방어 RISC V 코어 PermuteV

엣지 AI는 센서와 디바이스가 현장에서 실시간으로 데이터를 처리하도록 함으로써 클라우드 의존도를 낮추고, 전송 지연과 에너지 소비를 크게 줄인다. 그러나 이러한 장점은 물리적 접근이 가능한 환경에 배치될 때 새로운 보안 위협을 초래한다. 특히 전자기 방출(EM) 신호는 프로세서 내부의 연산 흐름을 외부에서 비침투적으로 관찰할 수 있는 강력한 사이드채널이며, 신경망 모델의 구조·가중치와 같은 민감 정보를 추출하는 데 악용될 수 있다. 기존의 소프트웨어 기반 난수화 기법은 실행 시간과 전력 소비를 크게 늘리는 반면, 하드웨어 수준에서

주의 기반 CBAM VGG16을 활용한 식물 잎 병원균 자동 진단 및 해석 가능한 딥러닝 모델

주의 기반 CBAM VGG16을 활용한 식물 잎 병원균 자동 진단 및 해석 가능한 딥러닝 모델

본 논문은 식물 잎 병원균 자동 진단 분야에서 정확도와 해석 가능성을 동시에 만족시키는 모델 설계에 초점을 맞추었다. 기존의 CNN 기반 병 진단 모델은 높은 분류 성능을 보여왔지만, “왜 이런 결과가 나왔는가”에 대한 설명이 부족해 현장 적용에 한계가 있었다. 이를 극복하기 위해 저자들은 VGG16 구조에 Convolution Block Attention Module(CBAM)을 각 합성곱 블록 뒤에 삽입하였다. CBAM은 채널‑주의와 공간‑주의 두 단계로 구성되어, 중요한 특징 채널을 강조하고 동시에 병변이 집중된 영역을 강조한

Detection
지식 전송을 차단하는 하이브리드 프라이버시 잠금장치 AlignDP

지식 전송을 차단하는 하이브리드 프라이버시 잠금장치 AlignDP

AlignDP는 대형 언어 모델(Large Language Models, LLMs)의 데이터 인터페이스에서 지식 전송을 차단하는 혁신적인 접근법입니다. 이 연구는 LLMs이 추출, 정제 및 무단 미세 조정에 대한 위험에 노출되어 있음을 인정하고, 이러한 문제를 해결하기 위해 워터마킹이나 모니터링과 같은 기존 방어 기법의 한계를 극복하려고 합니다. AlignDP는 드문 필드와 일반적인 필드를 분리하여 각각 다른 프라이버시 보호 메커니즘을 적용합니다. 드문 필드는 PAC(Piecewise Aggregate Approximation) 구

하드와 이즈 우선순위 결합을 통한 물리정보 신경망의 안정적 고정밀 학습

하드와 이즈 우선순위 결합을 통한 물리정보 신경망의 안정적 고정밀 학습

본 논문은 물리정보신경망(PINN)의 학습 효율성을 높이기 위한 새로운 우선순위 스케줄링 전략을 제시한다. 기존에 널리 사용되는 ‘하드 우선순위’는 손실 함수에 물리적 제약을 강제로 부여해 특정 영역(예: 경계조건이나 급격한 변화가 있는 영역)의 학습을 강조한다. 이는 유한요소법(FEM)에서의 적응형 메쉬 정제와 유사한 개념으로, 어려운 영역을 먼저 해결함으로써 전체 해의 품질을 향상시키려는 목표를 가진다. 반면 ‘이즈 우선순위’는 현재 손실이 작은, 즉 학습이 비교적 쉬운 샘플에 더 많은 가중치를 부여한다. 이 접근법은 학습 초기

AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

KineST는 AR/VR 애플리케이션에서 전신 동작 추적이 중요한 역할을 하는 상황에서, 헤드 마운트 디스플레이를 통해 얻은 제한적인 신호로 실제이고 다양한 동작을 재구성하는 문제에 초점을 맞춥니다. 기존의 방법들은 높은 계산 비용이나 별도의 공간적과 시간적 의존성을 모델링함으로써 정확성, 시계열 일관성 및 효율성 사이에서 균형을 맞추는 것이 어렵다는 문제를 해결하기 위해 KineST가 제안되었습니다. 이 모델은 두 가지 핵심 아이디어로 구성됩니다: 첫째, 상태공간 이중성 프레임워크 내의 스캐닝 전략을 동역학 지향 양방향 스캔으로

Model
No Image

SDFoam: 3D 장면 재구성의 새로운 패러다임

SDFoam는 3D 장면 재구성을 위한 혁신적인 접근법으로, 기존 방법들이 명시적 또는 암시적 기하학을 사용하여 각각의 장단점을 가지고 있는 반면, SDFoam은 부호화된 거리 필드(SDF)와 3D 보로노이 다이어그램을 동시에 학습하고 최적화하는 방식으로 이를 극복합니다. 이는 레이 추적 과정에서 이루어지며, 이 방법의 가장 큰 장점은 렌더링 속도, 시각적 정밀성 및 재구성 정확성 간의 좋은 균형을 제공한다는 것입니다. SDFoam은 기존 접근법들보다 더 효율적인 결과를 도출할 수 있으며, 이를 통해 3D 장면 재구성 분야에서 새로

개인정보보호와 가상현실 경험의 균형: PrivateXR

개인정보보호와 가상현실 경험의 균형: PrivateXR

이 논문은 가상현실(XR) 환경에서 개인 정보 보호와 사용자 경험 사이의 균형을 탐구하고 있습니다. PrivateXR이라는 시스템은 XAI(가능성 해석 가능 인공지능)를 통해 동적인 개인정보 제어 기능을 제공하며, 이를 통해 사용자는 자신의 개인정보 노출 수준을 조절할 수 있습니다. 논문에서 제시된 가상 롤러코스터 환경에서는 이 시스템이 사용자 경험을 크게 향상시키는 것으로 나타났습니다. 특히, PrivateXR은 실시간으로 사이버질환(CS)의 심각도를 예측하는 기능을 제공합니다. CS는 가상현실에서 발생할 수 있는 불편감이나 질병

다중 스케일 주의 기반 얼굴 내재성 분해 네트워크

다중 스케일 주의 기반 얼굴 내재성 분해 네트워크

MAGINet은 얼굴 이미지 내재성 분해라는 매우 구체적인 문제에 대해 여러 혁신적인 설계 요소를 결합한 점이 눈에 띈다. 첫 번째로, 계층적 잔차 인코더를 채택함으로써 저해상도에서 고해상도로 넘어가는 과정에서 발생할 수 있는 정보 손실을 최소화한다. 이는 특히 얼굴과 같이 미세한 디테일이 중요한 영역에서 알베도 경계가 흐려지는 현상을 방지한다. 두 번째로, 병목 구조에 삽입된 공간‑채널 주의 메커니즘은 특징 맵의 중요한 영역을 자동으로 강조한다. 공간 주의는 얼굴의 눈, 입술, 턱선 등 고주파 영역에 집중하고, 채널 주의는 알베도

No Image

사진 속 개들의 상호작용: 모델과 인간의 판단 일치성 분석

본 논문은 이미지와 캡션에 대한 질량 평가를 통해 모델의 추론 과정과 인간의 판단 사이에서 일관성을 분석합니다. 특히, Q Instruct(SFT) 및 Q Insight(RL) 모델을 테스트하여 기존 모델들이 이미지와 캡션 입력에 대한 점수에서 일치하지 않는 결과를 내놓는 반면, 제안된 모델은 인간의 판단과 일관되게 일치하는 점수를 제공합니다. 이 연구에서는 SFT 모델이 캡션과 등급에 대해 감독을 받지만 명시적인 추론 가이드가 부족하고, RL 모델은 점수 최적화에 초점을 맞추는 반면 인간은 해석 가능한 판단 기준을 통해 일관된 평

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

이 논문은 사회 미디어 플랫폼에서 혐오 발언과 거짓 정보의 확산 문제를 다루며, 특히 코드믹스 힌디 영어 텍스트에서 가짜 이야기에 의해 유발된 혐오 발언을 감지하는 Faux Hate 공동 작업을 탐구합니다. 이 연구는 두 가지 주요 하위 작업을 수행하는데, 첫째로 이진 Faux Hate 감지는 거짓과 혐오 발언을 분류하고, 둘째로 대상 및 심각성 예측은 혐오 발언의 목표와 그 정도를 범주화합니다. 연구팀이 개발한 시스템은 고급 자연어 처리 기술과 도메인 특异性预训练相结合,旨在提高这两项任务的性能。该系统在比赛中取得了有竞争力的结果,证明了

Model Learning
No Image

암 환자의 통증 예측: 인공지능의 새로운 가능성

본 논문은 폐암 환자들의 돌파통 예측을 위한 혁신적인 접근법을 제시하며, 이를 통해 환자의 통증 관리와 치료 효과를 향상시키는 데 중점을 두고 있다. 연구팀은 구조화된 전자 의료 기록과 비구조화된 데이터를 활용하여 머신러닝 및 대형 언어 모델을 결합한 하이브리드 시스템을 개발하였다. 이 시스템은 환자의 통증 발작을 입원 후 48시간 내외로 예측하는 데 성공하였으며, 특히 민감도의 향상으로 인해 실제 임상 적용에서 더욱 효과적인 결과를 보여주었다. 연구는 다양한 데이터 요소를 활용하여 환자의 통증 발작을 정확하게 예측할 수 있는 방법

No Image

전파형 역산의 확장 소스 접근법: 페널티 파라미터의 중요성

전파형 역산(FWI)은 고해상도의 지하 구조물 물리적 속성을 추정하는 데 사용되는 강력한 기술입니다. 그러나 FWI는 비선형적이며 병렬 역문제로, 이를 해결하기 위해 확장 소스 접근법이 필요합니다. 이 중 하나인 증강 라그랑주(AL) 방법은 페널티 파라미터(µ)를 통해 솔루션의 볼록성과 견고성을 개선하는 역할을 합니다. µ는 관찰된 데이터와 모델링된 데이터 간의 불일치를 최소화하면서, 동시에 물리적 제약 조건인 파동 방정식을 충족시키는 균형점을 찾는데 중요한 역할을 합니다. 특히 노이즈가 있는 상황에서는 µ의 선택이 수렴에 큰 영향

정보 검색 시스템의 재순위화: 기술의 발전과 미래

정보 검색 시스템의 재순위화: 기술의 발전과 미래

본 논문은 정보 검색(IR) 시스템에서 재순위화가 중요한 역할을 하는 이유와 그 발전 과정을 체계적으로 분석합니다. 특히, 최근의 Retrieval Augmented Generation (RAG) 파이프라인에 중점을 두고 있습니다. RAG는 검색된 문서들이 출력 품질에 큰 영향을 미치므로 재순위화 기법의 중요성이 더욱 부각됩니다. 논문은 재순위화 기법의 역사적 발전 경로를 탐구하며, 초기 접근 방식에서 시작해 다양한 신경망 아키텍처까지 다룹니다. 이 중에는 크로스 인코더, T5와 같은 시퀀스 생성 모델, 구조적 정보를 활용하는 그래

Model
No Image

주제 모델의 최적 주제 수 선택: 진화 알고리즘 vs. 학습 기반 최적화

본 연구에서는 LDA 모델에서 주제 수 T를 선택하는 문제를 이산 블랙박스 최적화 문제로 정식화하고, 이를 해결하기 위한 다양한 최적화 방법들을 비교한다. 특히, 본 논문은 GA와 ES라는 두 가지 진화 알고리즘과 PABBO 및 SABBO라는 학습 기반 앰ORTIZED 접근법을 평가한다. 이러한 접근법들은 각각의 장단점을 가지고 있으며, 실험 결과를 통해 그 효율성을 비교한다. GA와 ES는 전통적인 진화 알고리즘으로서, 다양한 해의 조합을 생성하고 선택 과정을 거쳐 최적해에 도달하려고 노력한다. 이러한 방법은 복잡한 문제 공간에서

Model
지능형 AI 시스템의 진화: 적응 메커니즘을 통한 성능 향상

지능형 AI 시스템의 진화: 적응 메커니즘을 통한 성능 향상

이 논문은 최첨단 지능형 AI 시스템의 성능 향상과 신뢰성 강화를 위해 적응 메커니즘에 중점을 둡니다. 이들 시스템은 기초 모델 위에 구축되어 있으며, 외부 도구와 상호작용하며 점점 더 복잡하고 전문화된 작업을 수행할 수 있도록 설계되었습니다. 논문에서는 에이전트 적응과 도구 적응이라는 두 가지 주요 범주를 제시하며, 이를 더욱 세분화하여 도구 실행 신호 및 에이전트 출력 신호에 의한 에이전트 적응 형태와 에이전트 무관 및 에이전트 감독형의 도구 적응 형태로 나눕니다. 이러한 분류는 지능형 AI 시스템에서 다양한 적응 전략을 설계하

No Image

지능형 이미지 위변조 검출 시스템 ForenAgent

이 논문은 이미지 위변조 검출(IFD) 분야에서 저수준 잡음 기반 방법과 고수준 의미 정보 기반 MLLMs의 통합을 목표로 한다. ForenAgent는 이러한 두 가지 접근 방식을 결합하여, Python 기반 도구를 활용해 이미지 위변조 검출을 수행하는 새로운 프레임워크를 제안한다. 이 프레임워크는 다중 라운드 상호작용을 통해 MLLMs가 저수준 도구를 생성하고 실행하며, 이를 반복적으로 개선함으로써 더욱 유연하고 해석 가능한 위변조 분석이 가능하도록 설계되었다. ForenAgent의 핵심은 두 단계 훈련 파이프라인과 동적 추론 루

Detection
No Image

텍스트 편집 벤치마크: 이미지 내 글자의 의미적 일관성 유지

텍스트 편집은 이미지 내에서 글자를 조작하는 복잡한 과정으로, 단순히 픽셀을 변경하는 것을 넘어 의미적, 기하학적, 그리고 문맥적 일관성을 유지해야 합니다. 이 연구는 이러한 어려움을 해결하기 위해 TextEditBench라는 새로운 평가 벤치마크를 제안합니다. 특히, 이 벤치마크는 모델들이 텍스트 편집 시 물리적 가능성과 언어적 의미를 이해하고 다중 모달 의존성을 처리할 수 있는 능력을 평가하는데 중점을 둡니다. 이를 통해 연구진은 '의미 기대(SE)'라는 새로운 평가 차원을 도입하여, 텍스트 편집 과정에서의 의미적 일관성과 다중

No Image

확장된 유틸리티 함수를 갖춘 AIXI 강화학습 에이전트

이 논문은 AIXI 강화학습 에이전트의 이론을 확장하여 더 넓은 클래스의 유틸리티 함수를 적용할 수 있도록 합니다. 특히, 가능한 상호작용 역사에 대한 각각의 유틸리티를 할당함으로써, 에이전트가 미래의 불확실성을 어떻게 다루는지에 대해 새로운 관점을 제시합니다. 이 논문은 '사망 가능성'이라는 개념을 도입하여, 특정 가설들이 역사의 유한 접두사를 예측하는 것만을 의미하게 되어 이를 해석할 때 발생하는 불확실성 문제를 해결하려고 합니다. 또한, Choquet 적분을 사용하여 기대 유틸리티를 계산하는 방법을 제안합니다. 이는 불명확한

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

이 논문은 MLLMs의 시각적 이해력 향상을 위해 JARVIS라는 새로운 프레임워크를 제안한다. 기존 MLLMs는 주로 언어적인 설명을 통해 학습하므로, 이에 따른 한계점이 존재한다. 특히, 언어 기반 감독 신호의 주관성과 불완전함으로 인해 시각적 추론 능력이 제한적이며, 다중모달 지시어 튜닝의 규모가 작아 시각적 세부 사항을 무시하는 경향이 있다. JARVIS는 이러한 문제를 해결하기 위해 JEPA 학습 패러다임을 MLLMs 훈련 파이프라인에 통합한다. 이 프레임워크는 동결된 시각 기반 모델을 활용하여 예측기를 훈련시키고, 언어

Model Learning
다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

이 논문은 바이오필름 성장 모델링 분야에서 ‘하이브리드 불확실성’이라는 복합적인 난제를 해결하려는 시도로 눈길을 끈다. 기존의 베이지안 모델 업데이트는 주로 인식 불확실성만을 고려하거나, 우연 불확실성을 별도의 몬테카를로 시뮬레이션으로 처리해 이중 루프 구조를 취한다. 이중 루프는 매 반복마다 고비용의 전방 시뮬레이션을 수행해야 하므로 계산량이 급격히 증가하고, 실시간 혹은 대규모 파라미터 탐색에 부적합하다. 저자들은 이러한 한계를 극복하기 위해 시간분리 확률역학(TSM) 기반 차원축소 모델(ROM)을 도입한다. TSM은 시스템의

Model
분기 예측의 핵심: 워크로드 특성화를 통한 정확도 향상

분기 예측의 핵심: 워크로드 특성화를 통한 정확도 향상

이 논문은 분기 예측의 핵심 문제인 정확도 향상을 위해 워크로드 특성화 방법론을 제시하고, 이를 통해 새로운 분석 지표들을 도입합니다. '분기 작업 집합 크기'와 '분기 예측 가능성'이라는 두 가지 매개변수는 현대적인 분기 예측 알고리즘의 성능에 직접적으로 영향을 미치며, 이들 매개변수를 통해 특정 워크로드가 어떤 분기 예측 기법에 더 적합한지 판단할 수 있게 됩니다. 논문은 2,451개의 워크로드 트레이스를 분석하여 이러한 지표들을 통해 각 워크로드의 특성을 파악하고 이를 통해 현대적인 분기 예측기의 정확도에 대한 깊이 있는 이해

No Image

언어모델의 성능 향상을 위한 도구 호출 최적화

본 논문은 언어 모델(LMs)의 성능 향상을 위해 도구 호출에 대한 최적화 방법을 제안하고 있습니다. LMs는 외부 도구와 상호작용하여 파일 검색, 코드 실행, API 호출 등을 수행하며, 이러한 작업들은 추론 과정에서 병목 현상이 발생할 수 있는 주요 원인입니다. 논문에서는 이 문제를 해결하기 위해 도구 호출을 예측하고 인퍼런스 엔진에 시퀀스를 최소한의 오버헤드로 유지하는 방법을 제안합니다. 제안된 최적화 기법은 LM 에이전트의 처리량을 크게 향상시킵니다. 특히, 초당 수백 토큰의 처리량 향상을 보여주며, 이는 LMs가 복잡한 추

Model
주관적 기능을 통한 목표 설정의 비밀

주관적 기능을 통한 목표 설정의 비밀

이 논문은 인간 지능과 인공 시스템 간의 차이를 탐색하면서, 특히 목표 설정 과정에 초점을 맞춥니다. 주관적 기능이라는 개념을 도입함으로써, 에이전트 자체의 내재적인 특징에 근거한 목표 설정 방법을 제안합니다. 이는 인간 지능에서 보이는 즉흥적인 목표 합성 능력을 인공 시스템에도 부여하려는 노력입니다. 논문은 예측 오류를 최소화하는 것을 주관적 기능의 한 형태로 설명하며, 이를 통해 에이전트가 자신의 경험과 학습에 따라 새로운 목표를 설정하고 추구할 수 있음을 제시합니다. 이러한 접근 방식은 심리학에서의 자기효능감 이론이나 신경과학

지속가능한 농업을 위한 공간적 변이성 인식 기계학습 프레임워크

지속가능한 농업을 위한 공간적 변이성 인식 기계학습 프레임워크

FTBSC KGML은 농생태계 탄소 순환량을 정확하고 비용 효율적으로 측정하기 위한 혁신적인 머신러닝 프레임워크입니다. 기존 접근법의 한계를 극복하기 위해, 이 연구는 전이 학습과 공간적 변이성을 활용하는 방법론을 제안합니다. 특히, FTBSC KGML은 사전 훈련 및 미세 조정 과정을 통해 각 지역의 특성에 맞춰 모델을 개선하고, 이를 통해 데이터가 부족한 지역에서도 높은 정확도를 유지할 수 있습니다. 이 프레임워크는 원격 측정 GPP, 기후 및 토양 공변량과 같은 다양한 데이터 소스를 활용하여 농생태계의 탄소 순환을 효과적으로

Learning
지식 기반에 의한 엔티티 집합의 구동

지식 기반에 의한 엔티티 집합의 구동

본 연구는 지식 기반(Knowledge Base)이 어떻게 다양한 엔티티 집합을 구동하는지에 대한 심층적인 분석을 제공합니다. 이 논문은 아마도 데이터 관리, 정보 검색, 또는 인공지능 시스템의 개선과 관련된 주제를 다루고 있을 것입니다. 지식 기반은 특정 도메인에서 수집된 정보와 그 정보 간의 관계를 저장하는 구조로, 이는 엔티티 집합을 효과적으로 관리하고 활용하는 데 중요한 역할을 합니다. 연구자들은 아마도 이러한 시스템이 어떻게 효율성을 향상시키고 새로운 인사이트를 제공하는지에 대해 탐구했을 것입니다.

문제 모델링을 통한 안정적인 계획 수립

문제 모델링을 통한 안정적인 계획 수립

이 논문은 대형 언어 모델(LLMs)이 복잡한 계획 작업에서 제약 위반, 일관성 없는 상태 추적 및 취약한 솔루션을 생성하는 문제를 해결하기 위해 Model First Reasoning(MFR)이라는 새로운 접근법을 제안합니다. MFR은 두 단계로 구성되는데, 첫 번째 단계에서는 LLM이 문제의 구조화된 모델을 명시적으로 구성하고, 두 번째 단계에서는 이 모델에 대한 추론 및 계획을 수행합니다. 이러한 방법은 인간의 과학적 추론, 고전 AI 계획, 그리고 의사결정 인지 모델에서 영감을 받아 제안되었습니다. 실험 결과 MFR은 다양한

Model
시간 렌즈 멀티모달 대형 언어 모델의 비디오 시간 정렬을 위한 고품질 데이터와 효율적 알고리즘 설계

시간 렌즈 멀티모달 대형 언어 모델의 비디오 시간 정렬을 위한 고품질 데이터와 효율적 알고리즘 설계

Time‑Lens 논문은 비디오 시간 정렬(VTG)이라는 비교적 좁은 영역에 초점을 맞추면서도, 현재 멀티모달 대형 언어 모델(MLLM) 연구에서 간과되고 있는 두 가지 핵심 요소—데이터 품질과 알고리즘 설계—를 체계적으로 조명한다. 첫 번째 기여는 기존 VTG 벤치마크가 갖는 ‘라벨 노이즈’와 ‘주석 불일치’ 문제를 정량적으로 분석하고, 이를 해결하기 위해 재주석 작업을 수행한 TimeLens‑Bench이다. 재주석 과정에서는 시간 구간의 경계 정확도, 언어 표현의 일관성, 그리고 시각‑언어 연관성 등을 엄격히 검증했으며, 그 결

No Image

양자 신경망 개발을 위한 시각화 도구 XQAI Eyes

이 논문은 양자 신경망(QNNs) 개발에서 중요한 역할을 하는 인코더 선택에 초점을 맞추고 있습니다. QNNs는 양자 컴퓨팅과 뉴럴 네트워크 아키텍처를 결합한 것으로, 고차원 데이터와 얽힘된 데이터의 처리 속도 향상 및 효율성을 제공합니다. 그러나 적절한 인코더 선택은 시스템적인 지침 부족과 실험적 접근 방식 때문에 어려움을 겪고 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 XQAI Eyes라는 새로운 시각화 도구를 제안하고 있습니다. XQAI Eyes는 QNN 개발자가 클래식 데이터 특징과 해당 양자 상태 사이의 비교를

Network
역인과성 초점 알고리즘으로 대규모 후보 공간 탐색 혁신

역인과성 초점 알고리즘으로 대규모 후보 공간 탐색 혁신

이 논문은 “희귀하지만 가치 있는 솔루션을 찾는 문제”를 기존의 탐색‑최적화 접근법과는 다른 관점에서 접근한다는 점에서 의미가 크다. 전통적인 방법은 보통 목표 함수를 직접 최적화하거나, 강화 학습에서는 보상을 최대화하도록 정책을 학습한다. 그러나 후보 공간이 천문학적으로 클 경우, 특히 목표가 희박하게 분포하거나 제약 조건이 복잡하게 얽혀 있을 때, 이러한 방식은 샘플 효율성이 급격히 떨어진다. ICFA는 이러한 상황을 “목표‑조건부 재가중”이라는 개념으로 재구성한다. 구체적으로, 먼저 기존의 제안 샘플러(예: 언어 모델, 무작위

No Image

의료 AI의 진화: Ophiuchus로 시각적 사고 혁신

이 논문은 의료 AI 분야에서 중요한 발전을 제시하고 있다. Ophiuchus 프레임워크는 MLLMs가 복잡한 시각적 정보를 처리하는 데 필요한 세 가지 핵심 기능을 제공한다: 추가적인 시각적 증거의 필요성을 판단할 수 있는 능력, 의료 이미지 내에서 정확하게 탐사해야 할 위치를 결정할 수 있는 능력, 그리고 이들 정보를 다중 모달 추론 체인에 통합하는 능력. 이러한 기능은 MLLMs가 복잡한 시각적 데이터를 처리하고 분석하는 데 있어 중요한 도약을 이루게 한다. Ophiuchus의 핵심은 세 단계로 구성된 훈련 전략이다: 첫째,

Analysis
터널 결함 자동 검사 위한 새로운 데이터셋 소개

터널 결함 자동 검사 위한 새로운 데이터셋 소개

본 논문은 터널 결함 검사를 위한 새로운 데이터셋을 소개하며, 이는 딥러닝 모델의 학습과 성능 개선에 중요한 역할을 합니다. 터널은 교통 인프라의 주요 구성 요소로, 안전성을 유지하기 위해 정기적인 점검이 필수적입니다. 하지만 전통적인 수동 검사 방법은 시간 소모가 많고 비용이 높으며 주관적이어서 제한점이 있습니다. 모바일 매핑 시스템과 딥러닝의 발전으로 자동화된 시각 검사가 가능해졌지만, 이를 위한 충분한 데이터셋이 부족하여 그 효과가 제한되어 왔습니다. 본 논문에서 소개하는 새로운 데이터셋은 세 가지 다른 종류의 터널 라이닝에

Learning Data Detection
현대 프로세서 설계에서의 정확하고 효율적인 전력 모델링: ReadyPower 프레임워크

현대 프로세서 설계에서의 정확하고 효율적인 전력 모델링: ReadyPower 프레임워크

본 논문의 핵심은 현대 프로세서 설계에서 전력 모델링의 중요성을 강조하고, 이를 위해 고전적인 분석형 아키텍처 수준의 전력 모델과 ML 기반 전력 모델의 한계를 지적하며 새로운 접근 방식을 제안하는 것입니다. ReadyPower 프레임워크는 기존의 문제점을 해결하기 위해 다양한 수준의 매개변수를 도입하여 McPAT 분석 모델에 통합함으로써, 고정밀도와 신뢰성을 제공합니다. ReadyPower의 주요 장점은 세 가지입니다: 첫째, 신뢰성. ReadyPower는 실제 프로세서 구현과 아키텍처 수준의 분석 모델 간의 불일치를 해결함으로써

Framework Model
확산모델을 이용한 텍스트 지도 이미지 편집의 면역화: 시맨틱 불일치와 인식적 저하를 통한 보호

확산모델을 이용한 텍스트 지도 이미지 편집의 면역화: 시맨틱 불일치와 인식적 저하를 통한 보호

이 논문은 텍스트 지시 이미지 편집에 대한 악용 가능성과 그로 인한 우려를 다루며, 이를 방어하기 위한 새로운 접근법을 제안합니다. 기존의 면역화 성공 평가 방법은 주로 시각적 유사성에 초점을 맞추고 있지만, 이는 공격자의 의도와의 시맨틱 불일치라는 본질적인 문제를 해결하지 못한다는 점에서 한계가 있습니다. 논문에서는 이러한 문제를 해결하기 위해 Synergistic Intermediate Feature Manipulation (SIFM) 방법을 제안합니다. SIFM은 중간 확산 특징을 전략적으로 변형하여 원래 편집 경로와의 시맨틱

고주파 신호 학습을 강화하는 쿼리 컨볼루션

고주파 신호 학습을 강화하는 쿼리 컨볼루션

본 논문은 고주파 신호 학습의 어려움을 해결하기 위해 Qonvolutions이라는 새로운 접근법을 제시합니다. 이 방법은 기존의 신경망이 고주파 정보를 처리하는 데 어려움을 겪는 문제를 해결하고자 저주파 신호와 쿼리(예: 좌표)를 합성하여 고주파 신호를 더 잘 학습할 수 있게 합니다. Qonvolutions은 간단한 방법임에도 불구하고, 1D 회귀, 2D 초해상도, 2D 이미지 회귀 및 새로운 시점 합성(NVS)과 같은 다양한 작업에서 우수한 성능을 보여줍니다. 특히 NVS에서는 가우시안 스팟팅과 결합하여 실제 복잡한 장면에서도 라

Learning
말ayer 주의 풀링을 활용한 음성 인식 기술 혁신

말ayer 주의 풀링을 활용한 음성 인식 기술 혁신

본 연구에서는 Layer Attentive Pooling (LAP)이라는 새로운 접근법을 제안하고, 이를 통해 사전 학습된 Transformer 모델로부터 얻은 계층별 출력을 효과적으로 통합하는 방법론을 개발했다. LAP의 핵심 아이디어는 각 계층의 중요성을 시간 동적으로 평가하고, 이에 따라 최대 풀링(max pooling)을 사용하여 특징들을 통합하는 것이다. 이 접근법은 기존의 정적 가중 평균 방법보다 더 유연하게 화자 특성의 변화를 포착할 수 있는 장점을 가지고 있다. 또한, 본 논문에서는 LAP과 Attentive Stat

No Image

시뮬레이션 기반 컴퓨터 아키텍처 연구 재현성을 위한 gem5와 gem5 Resources 확장

본 논문은 현재 컴퓨터 아키텍처 연구에서 널리 사용되는 전 시스템 시뮬레이터인 gem5가 직면한 재현성 문제를 체계적으로 진단하고, 이를 해결하기 위한 실질적인 개선안을 제시한다. 첫 번째 문제는 디스크 이미지와 커널, 벤치마크 등 필수 아티팩트를 개별 연구자가 직접 구축해야 하는 비효율성이다. 특히 ISA마다 이미지 생성 절차가 달라 협업과 공유가 어려웠으며, 이미지 품질 검증이 부족해 결과의 신뢰성이 저하될 위험이 있었다. 저자들은 Packer라는 자동화 도구를 도입해 x86, ARM, RISC‑V 세 ISA에 대해 동일한 워크

인간감독의 핵심: AI 윤리와 인간의 번영을 위한 새로운 접근법

인간감독의 핵심: AI 윤리와 인간의 번영을 위한 새로운 접근법

이 논문은 AI 윤리와 인간감독 사이의 연결고리를 탐색하며, 그 중요성을 강조하고 있습니다. EU AI Act를 포함한 여러 지침과 법률들이 인간감독에 대한 명확한 정의나 구체적인 발전 방향을 제시하지 못하는 상황에서, 저자들은 이 개념을 '번영 효능성' 프레임워크 내에서 재정의하고 있습니다. 번영 효능성은 AI 리터러시와 윤리적 판단력을 포함하며, 인간의 필요를 인식하면서도 그 중 일부가 충돌하거나 해롭게 될 수 있다는 점을 인정하는 포괄적인 접근법입니다. 논문은 또한 사람들이 자신의 욕구나 두려움을 AI 시스템에 투영할 가능성을

No Image

학습 성과와 연계된 교육 자료 자동 정렬을 위한 임베딩 기반 프레임워크

본 논문은 교육 기술 분야에서 ‘학습 목표와 교육 자료 간 정렬(alignment)’이라는 핵심 문제를 자동화하려는 시도로서, 텍스트 임베딩 모델을 활용한 프레임워크를 제시한다. 연구는 크게 세 단계로 구성된다. 첫 번째 단계에서는 인간이 직접 만든 교육 자료를 기준 데이터셋으로 활용해 여러 LLM 기반 임베딩 모델(Voyage, OpenAI‑Ada 등)을 비교 평가하였다. 여기서 ‘정렬’은 학습 목표와 자료 내용 사이의 의미적 유사성을 수치화한 점수로 정의되며, 인간 평가자들의 라벨링을 정답으로 삼아 모델의 정확도를 측정하였다.

Learning
AI 의료진단에서 XAI의 복합적 영향

AI 의료진단에서 XAI의 복합적 영향

본 논문은 인공지능(AI)이 의료 분야에 미치는 복잡한 영향을 탐구하고 있다. 특히, 설명 가능한 AI(XAI)의 도입이 진단 정확도와 의사결정 과정에 어떤 효과를 미치는지를 살펴보았다. 연구에서는 일반인과 내과 의사 두 그룹을 대상으로 실험을 진행하였으며, 이를 통해 XAI가 사용자들의 전문성과 AI 제안의 타이밍에 따라 다양한 결과를 보여주는 것을 확인하였다. 연구결과, 피부 톤 간 균형을 맞춤으로써 AI 지원은 진단 정확도를 높이고 불균형을 줄이는 효과가 있었다. 그러나 LLMs을 통한 설명은 일반 사용자와 내과 의사 사이에서

No Image

SAGA: 유연하고 적응력 있는 시각 모터 제어 프레임워크

본 논문은 SAGA라는 새로운 프레임워크를 소개하며, 이는 다양한 환경과 작업 목표에 걸쳐 일반화할 수 있는 유연하고 적응력 있는 시각 모터 제어를 제공합니다. 핵심 아이디어는 고수준의 의미적 의도와 저수준의 시각 모터 제어를 분리하는 것입니다. 이를 위해 능동성 기반 작업 표현을 사용하여 복잡한 행동을 통일되고 구조화된 형태로 나타냅니다. 다중 모달 기초 모델을 활용하여 SAGA는 로봇의 시각적 관찰에 3D 능동성 히트맵으로 근거를 두어, 작업 관련 엔티티를 강조하고 일반화를 방해할 수 있는 부수적인 외관 변이를 추상화합니다. 이

No Image

기억관리 시스템 MaRS: 효율성과 프라이버시 보장

이 논문은 생성적 에이전트가 장기 기억을 관리하면서 효율성, 프라이버시 및 비용 제약 조건을 충족하는 방법에 대해 깊게 탐구하고 있습니다. Memory Aware Retention Schema (MaRS)는 이벤트, 의미론적, 사회적, 작업 기억들을 타입화하고 출처를 추적하며 효율적인 검색을 위한 여러 인덱스를 제공하는 구조입니다. 이러한 기반 위에 제안된 6가지 잊음 정책은 각각의 복잡도 분석과 감도에 따른 보존성을 제공하며, 선택적으로 차별적 프라이버시를 보장합니다. 논문에서 소개한 FiFA 벤치마크는 서사 일관성, 목표 완료,

No Image

노이즈 기반 정규화의 새 지평: PerNodeDrop

딥 뉴럴 네트워크는 복잡한 패턴을 학습하는 데 매우 효과적이지만, 이 과정에서 유해한 공적응이 발생하여 일반화 성능이 저하되는 문제를 안고 있습니다. 드롭아웃과 드롭커넥트와 같은 기존의 노이즈 기반 정규화 방법은 이러한 문제를 해결하기 위해 무작위 변동을 주입하지만, 이들 방법은 층이나 배치 단위로 균일한 노이즈를 적용하므로 유용한 공적응까지 억제하는 부작용이 있습니다. 본 연구에서는 PerNodeDrop이라는 새로운 정규화 방법을 제안합니다. PerNodeDrop은 샘플별, 노드별로 변동성을 주입함으로써 기존의 균일한 노이즈 적용

Network
레몬: 3D 공간 이해를 위한 통합 변형 모델

레몬: 3D 공간 이해를 위한 통합 변형 모델

이 논문은 대규모 다중 모달 모델(LMMs)의 한계를 극복하고, 특히 3D 데이터 이해에 필요한 새로운 접근법을 제시하고 있습니다. Lemon이라는 이름의 모델은 기존의 분리된 아키텍처와 달리 통합 변형 아키텍처를 사용하여 점 클라우드 데이터와 언어 토큰을 동시에 처리하는 능력을 제공합니다. 이 접근법은 중복되는 인코더를 제거하고, 파라미터 효율성을 높이며, 모델의 확장을 더 효과적으로 지원함으로써 기존의 문제점을 해결합니다. 또한, Lemon은 3D 데이터의 특성에 맞게 구조화된 패치화 및 토큰화 방식을 개발하여 공간적 맥락을 유

Model

< 분야별 논문 현황 (Total: 792) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
11

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키