게시글

모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

총 821개의 게시글
총 17페이지
대규모 임상 벤치마크 라벨 품질 개선을 위한 LLM 기반 스튜어드십 프로세스

대규모 임상 벤치마크 라벨 품질 개선을 위한 LLM 기반 스튜어드십 프로세스

본 연구는 임상 데이터 자동화에 LLM을 적용함에 있어 가장 핵심적인 문제인 라벨 신뢰성을 체계적으로 검증한다는 점에서 학술적·실무적 의의를 가진다. 기존 의료 점수는 임상의의 경험과 판단에 기반해 수작업으로 산출되었으며, 이는 정확도는 높지만 시간과 인력 비용이 크게 소요되는 단점이 있다. MedCalc‑Bench는 이러한 작업을 LLM으로 대체하려는 시도로, 대규모 벤치마크를 제공함으로써 연구자들이 모델 성능을 비교할 수 있는 기반을 마련했다. 그러나 라벨 자체를 LLM이 생성했다는 사실은 ‘라벨링 편향’이라는 심각한 위험을 내

반사 기반 제어를 활용한 안전한 코드 생성 에이전트

반사 기반 제어를 활용한 안전한 코드 생성 에이전트

본 논문은 대형 언어 모델(LLM) 기반 코딩 에이전트가 직면한 안전성 문제를 근본적으로 해결하려는 시도로서, ‘반사 기반 제어(Reflection‑Driven Control, RDC)’라는 새로운 메커니즘을 제안한다. 기존의 안전 제어 방식은 주로 사후 필터링, 프롬프트 엔지니어링, 혹은 외부 검증 모듈에 의존한다. 이러한 접근법은 모델이 이미 위험한 출력을 생성한 뒤에 이를 차단하거나 수정하기 때문에, 위험이 발생할 가능성을 완전히 배제하지 못한다. 반면 RDC는 위험 감지를 생성 과정 중에 수행한다는 점에서 차별화된다. RDC

신호 SGN++: 에너지 효율적인 동작 인식을 위한 위상 인식 스팽킹 그래프 프레임워크

신호 SGN++: 에너지 효율적인 동작 인식을 위한 위상 인식 스팽킹 그래프 프레임워크

이 논문은 신호 SGN++라는 새로운 프레임워크를 제안하여 그래프 컨볼루션 네트워크(GCNs)와 스팽킹 신경망(SNNs)의 장점을 결합하고자 합니다. GCNs는 관절 구조를 효과적으로 모델링할 수 있지만, 실수 계산에 따른 에너지 소비가 높은 반면, SNNs는 에너지 효율적이지만 인간 동작의 복잡한 시간 주파수 및 위상 의존성을 포착하는 데 한계가 있습니다. 신호 SGN++은 이러한 문제를 해결하기 위해 1D Spiking Graph Convolution(1D SGC)과 Frequency Spiking Convolution(FSC)

Network
이진신경망을 활용한 손글씨 숫자 인식 FPGA 가속기

이진신경망을 활용한 손글씨 숫자 인식 FPGA 가속기

이 논문은 이진신경망(BNN)을 활용한 손글씨 숫자 인식 가속기의 설계와 구현을 다룹니다. BNN는 부동소수점 연산 대신 비트 논리 연산을 사용함으로써, 저전력과 고속 추론이 가능한 특성을 가지고 있습니다. 특히 이 연구에서는 Xilinx Artix 7 FPGA를 타겟으로 하여 Verilog 언어로 수작업 설계를 수행하였습니다. 이는 고수준 합성 도구 없이도 실시간 분류 성능을 달성할 수 있음을 보여주며, 80 MHz에서 작동하면서 낮은 전력 소비와 예측 가능한 타이밍을 제공합니다. MNIST 데이터셋에 대한 시뮬레이션 결과에서는

Network
No Image

주의력 침수: 중간 레이어에서 나타나는 새로운 주의력 패턴

이 논문은 기존 연구에서 다루어진 '주요 침수'와 구별되는 새로운 형태의 '부차적 침수'를 식별하고 그 특성과 형성 과정을 분석한다. 부차적 침수는 중간 레이어에서 주로 발생하며, 다양한 수의 레이어에 걸쳐 존재하고 상대적으로 작은 양의 주의력을 받는다. 이 연구에서는 11개 모델 가족을 대상으로 실험을 통해 이러한 부차적 침수의 형성 과정과 특성을 분석한다. 특히, 중간 레이어의 MLP 모듈에서 토큰 표현을 주요 침수 방향에 맞게 매핑하는 것을 발견하고, 이 벡터들의 2 노름이 부차적 침수의 점수와 지속 기간을 결정한다는 사실을

상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

상태 변화를 이해하는 모델 평가를 위한 새로운 벤치마크 제안

이 논문은 인공지능, 특히 대형 멀티모달 모델(LMM)이 “상태 변화(state transition)”를 얼마나 잘 이해하고 추론할 수 있는지를 평가하기 위한 새로운 벤치마크를 제안한다. 기존의 평가 체계는 대부분 정적인 상황, 즉 하나의 이미지 혹은 영상 프레임에 대한 질문에 국한된다. 예를 들어 “침대 옆 서랍이 열려 있나요?”와 같은 질문에 대해 모델이 “열림” 혹은 “닫힘”이라는 단일 답변을 제시하도록 요구한다. 이러한 접근은 인간이 일상 생활에서 경험하는 “시간에 따른 변화”를 포착하지 못한다. 인간은 동일한 물체가 시간

Model
시간을 꿈꾸는 로봇 조작을 위한 행동조건 세계모델

시간을 꿈꾸는 로봇 조작을 위한 행동조건 세계모델

ChronoDreamer는 로봇 매니퓰레이션 분야에서 가장 난해한 문제 중 하나인 ‘접촉 예측’을 시각‑언어‑물리 통합 프레임워크로 풀어낸 점이 혁신적이다. 기존 세계 모델은 주로 이미지와 관절 상태만을 이용해 미래 프레임을 예측했지만, 접촉 정보가 결여돼 실제 물리적 상호작용을 안전하게 계획하기 어려웠다. 본 연구는 접촉을 ‘깊이 가중 가우시안 스플랫’이라는 2D 이미지 형태로 변환함으로써, 기존 비전 백본(ViT 등)과 자연스럽게 결합한다. 이 방식은 3D 힘 벡터를 카메라 좌표계에 투사해 시각적 특징과 동시 학습이 가능하도록

Model
자율 책임 프레임워크를 통한 다중 에이전트 시스템의 윤리적 정렬

자율 책임 프레임워크를 통한 다중 에이전트 시스템의 윤리적 정렬

이 논문은 급격히 확대되는 다중 에이전트 시스템(MAS)이 사회·경제적 인프라에 미치는 영향을 고려할 때, 기존의 중앙집중식 규제나 사후 감사만으로는 시스템 내부에서 발생하는 비정상적·비윤리적 행동을 억제하기 어렵다는 문제의식을 바탕으로 연구가 진행되었다. 저자들은 책임 흐름을 ‘라이프사이클‑인식 감사 원장(lifecycle‑aware audit ledger)’에 기록함으로써, 각 에이전트가 언제, 어떤 의사결정을 내렸는지를 투명하게 추적한다. 이 원장은 블록체인과 유사한 불변성을 갖추면서도, 에이전트 간 통신 지연이나 부분 관측성

Network
저속 주행 시 제로스피드 제동 오류를 해결하는 영상 기반 궤적 분석 시스템

저속 주행 시 제로스피드 제동 오류를 해결하는 영상 기반 궤적 분석 시스템

이 연구는 기존 상용 차량 AEB 시스템이 저속 주행 구간에서 CAN 버스 신호의 노이즈와 지연으로 인해 차량이 정지했음에도 “제로스피드” 상태를 오인하고 비정상적인 제동을 가하는 문제를 근본적으로 해결하고자 한다. 핵심 아이디어는 차량 주변을 실시간으로 모니터링하는 블라인드 스팟 카메라 영상을 활용해, 차량 자체의 움직임을 직접 추정하는 것이다. 이를 위해 저전력 고성능 엣지 컴퓨팅 보드인 NVIDIA Jetson AGX Xavier를 선택했으며, 이는 8코어 CPU와 512‑코어 GPU를 갖추어 복잡한 이미지 처리 파이프라인을

초월적 그래프 임베딩으로 보는 이상 탐지 혁신

초월적 그래프 임베딩으로 보는 이상 탐지 혁신

하이퍼볼릭 그래프 임베딩은 최근 복잡하고 비유클리드적인 네트워크 구조를 모델링하는 데 주목받고 있다. 전통적인 유클리드 임베딩은 노드 간 거리와 관계를 평면 혹은 저차원 유클리드 공간에 투사함으로써 트리 구조나 스케일‑프리 네트워크와 같은 고차원적 계층성을 충분히 표현하지 못한다. 반면, 하이퍼볼릭 공간은 지수적으로 확장되는 볼륨 특성을 가지고 있어, 동일한 차원 내에서 더 많은 노드를 구분할 수 있다. 이러한 특성은 특히 이상 탐지와 같이 정상 패턴과 비정상 패턴 사이의 미세한 차이를 포착해야 하는 작업에 유리하다. 본 논문에서는

Detection
3D 재조명 가능한 PBR 재질 생성 위한 2D 확산 모델 기반 매터리얼 스프레이

3D 재조명 가능한 PBR 재질 생성 위한 2D 확산 모델 기반 매터리얼 스프레이

MatSpray는 최근 급부상한 2차원 확산 모델의 풍부한 재질 표현 능력을 3차원 가우시안 스플래팅 파이프라인에 접목함으로써, 기존 3D 재구성 방법이 직면하던 물리 기반 렌더링(PBR) 재질의 정확도와 일관성 문제를 효과적으로 해결한다. 첫 단계에서는 다중 시점 이미지로부터 각 시점마다 베이스 컬러, 러프니스, 메탈릭과 같은 PBR 파라미터를 추출한다. 여기서 중요한 점은 ‘any 2D diffusion‑based material model’을 사용할 수 있다는 점이다. 즉, Stable Diffusion, Imagen 등 최신

건조기후의 영향 예측: 머신러닝을 활용한 신속 대응 시스템 개발

건조기후의 영향 예측: 머신러닝을 활용한 신속 대응 시스템 개발

본 논문은 최근 증가하는 건조의 심각성과 빈도에 대응하기 위해 머신러닝 기법을 활용한 건조 영향 예측 모델 개발에 초점을 맞추고 있습니다. 특히, Drought Severity and Coverage Index (DSCI)와 Evaporative Stress Index (ESI)를 사용하여 건조의 영향을 예측하고자 하였습니다. 연구는 2005년부터 2024년까지의 데이터를 활용하였으며, Fire와 Relief 영역에서 가장 높은 예측 정확도를 보였고, Agriculture와 Water 분야에서는 그 다음으로 높은 정확도가 나타났습니

Learning
대규모 언어 모델을 활용한 가상 환자 시뮬레이션 교육적 정확성과 피드백 제공을 위한 에이전트 기반 프레임워크

대규모 언어 모델을 활용한 가상 환자 시뮬레이션 교육적 정확성과 피드백 제공을 위한 에이전트 기반 프레임워크

본 연구는 의료 교육 분야에서 가상 환자 시뮬레이션(VSP)의 실용성을 크게 향상시킬 수 있는 새로운 패러다임을 제시한다. 기존 VSP는 실제 환자를 대체하기 위해 고도로 정교한 시나리오와 피드백을 제공해야 함에도 불구하고, 인력·시간·비용 측면에서 한계가 있었다. 특히, 의료 정확성 부족과 역할 연기의 일관성 결여는 학습 효과를 저해하는 주요 요인으로 지적되어 왔다. 이 논문이 제안하는 ‘에이전트 기반 프레임워크’는 세 가지 핵심 모듈을 명확히 분리한다. 첫째, 구성 가능한 증거 기반 사례 생성 모듈은 최신 임상 가이드라인과 데이

Framework
대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

이 논문은 최근 급부상하고 있는 대조적 비전‑언어 모델(VLM)을 보상 함수 학습에 적용하는 연구 흐름을 비판적으로 재조명한다. 기존 연구들은 VLM을 활용해 인간 라벨링 없이도 로봇 제어나 강화학습 환경에서 사용할 수 있는 풍부한 보상 신호를 생성한다는 점에서 큰 기대를 모았다. 그러나 이러한 연구들은 서로 다른 사전학습 데이터셋(예: CLIP, ALIGN), 서로 다른 네트워크 아키텍처(ResNet, ViT), 그리고 서로 다른 파인튜닝 프로토콜을 사용했기 때문에, 실제로 어느 학습 목표가 성능 향상에 기여했는지를 명확히 파악하

Learning Model
대형 언어 시각 모델 기반 자율주행 궤적 계획 어시스턴트 LLaViDA

대형 언어 시각 모델 기반 자율주행 궤적 계획 어시스턴트 LLaViDA

LLaViDA는 자율주행 분야에서 “시각‑언어 통합”이라는 새로운 패러다임을 제시한다는 점에서 학술적·산업적 의미가 크다. 기존의 엔드‑투‑엔드(End‑to‑End) 접근 방식은 카메라 이미지 혹은 라이다 포인트 클라우드와 같은 원시 센서 데이터를 직접 네트워크에 입력해 궤적을 출력한다. 이러한 방식은 대규모 라벨링된 주행 데이터가 충분히 확보된 경우에는 강력하지만, 데이터 분포가 급격히 변하는 악천후, 야간, 눈보라 등에서는 일반화가 어려워진다. 특히 인간 운전자의 미묘한 행동(예: 급정거, 차선 변경 의도)이나 복합 교차로와 같

스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

이 논문은 최근 딥러닝 커뮤니티에서 화두가 되고 있는 “파워‑법칙 스케일링” 현상을 근본적으로 설명하려는 시도를 담고 있다. 기존 연구들은 실험적으로 파워‑법칙이 나타나는 것을 관찰했지만, 왜 그런 현상이 발생하는지에 대한 이론적 틀은 부족했다. 여기서 제시된 Generalized Resolution‑Shell Dynamics(GRSD) 프레임워크는 학습을 고차원 파라미터 공간의 스펙트럼 에너지 흐름으로 바라보는 새로운 관점을 제공한다. 특히 로그 스케일의 해상도 쉘이라는 개념을 도입해, 서로 다른 주파수 대역 사이의 에너지 전달을

Learning
학습 역학을 위한 다층 형식 기술 프레임워크

학습 역학을 위한 다층 형식 기술 프레임워크

이 논문이 제시하는 다층 형식 기술 프레임워크는 학습 과정을 ‘기술’한다는 점에서 기존의 ‘예측·최적화’ 중심 모델과 근본적으로 차별화된다. 학습은 단순히 성과를 높이는 목표 함수의 최소화가 아니라, 학습자 내부의 상태가 외부 자극과 어떻게 상호작용하면서 변형되는가에 대한 서술적 이해가 필요하다. 이를 위해 저자는 학습을 네 개의 기능적 층—부하 생성층, 내부 변환층, 관찰·측정층, 평가·조절층—으로 분리하고, 각 층이 담당하는 책임을 명확히 정의한다. 첫 번째 부하 생성층은 외부 과제·자료가 학습자에게 제공될 때 발생하는 인지 부

Learning System
확률적 상위의존성: 기저 상태에서 고수준 분포로

확률적 상위의존성: 기저 상태에서 고수준 분포로

이 논문은 상위의존성 개념을 확률론적 관점으로 확장하고, 이를 통해 현대 과학에서 복잡한 시스템의 동작을 더 정확하게 설명하려는 시도를 보여줍니다. 기존의 상위의존성 이론은 주로 결정론적인 관점을 취해왔지만, 실제 자연 현상과 인공 지능 분야에서는 확률적 요소가 매우 중요한 역할을 합니다. 이를 반영하여 저자는 마르코프 커널이라는 수학적 도구를 사용해 기저 상태와 고수준 분포 사이의 관계를 표현합니다. 논문은 이러한 확장된 프레임워크에서 법칙적 고정, 비퇴화성 및 방향 비대칭성을 보장하기 위한 공리들을 제시하고, 이들 공리는 클래식

그래프 이론과 GNN을 활용한 인간의 추상적 사고 모델링

그래프 이론과 GNN을 활용한 인간의 추상적 사고 모델링

이 논문은 인간의 추상적 사고와 문제 해결 능력에 초점을 맞추며, 이를 가능하게 하는 귀납적 편향성의 계산적 구조와 신경학적 구현을 탐구하고 있습니다. 연구진은 그래프 이론과 GNN을 결합한 프레임워크를 제시하여 이러한 편향성을 명확히 정식화하고, 이를 통해 인간의 추론 과정을 더 잘 이해할 수 있는 방법을 제공합니다. 특히, 본 논문에서 사용된 데이터셋은 Abstraction and Reasoning Corpus (ARC)에서 적응된 것으로, 이는 인간 행동 데이터를 기반으로 하여 실제 인간의 문제 해결 능력을 반영하고 있습니다.

Network Framework
No Image

대규모 감독 학습을 위한 3D ConvNeXt 백본 MedNeXt 버전2 효율적 표현 학습과 스케일링 전략

본 논문은 최근 의료 영상 분야에서 급부상하고 있는 ‘대규모 감독 사전학습(Supervised Pre‑training)’ 흐름에 중요한 질문을 제기한다. 대부분의 연구가 데이터 양을 늘리는 방향에만 집중한 반면, 실제 모델이 대규모 데이터에서 얼마나 효율적으로 특징을 추출하고 일반화할 수 있는지는 충분히 검증되지 않았다. 저자들은 이러한 공백을 메우기 위해 ConvNeXt라는 최신 2D 비전 백본을 3차원 볼류메트릭 작업에 맞게 재설계하고, 이를 ‘MedNeXt‑v2’라는 이름으로 제시한다. 핵심 기여는 크게 네 가지로 정리할 수

Learning
딥페이크 기술의 도전과 이슬람 윤리적 프레임워크

딥페이크 기술의 도전과 이슬람 윤리적 프레임워크

딥페이크 기술은 AI의 발전으로 인해 급속도로 진보하면서, 정보 조작과 디지털 신분 침해 등에 대한 우려가 증가하였습니다. 이러한 문제는 단순히 기술적 측면을 넘어 윤리적 차원까지 확장되며, 기존의 반응적인 관리 방식만으로 해결하기 어렵습니다. 본 연구에서는 이슬람 윤리 원칙을 바탕으로 딥페이크 기술의 오남용을 예방하고자 합니다. 이를 위해 시스템 리터러처 검토를 통해 2018년부터 2025년 사이에 발표된 주요 출판물을 분석하였습니다. 연구 결과, 이슬람 윤리 원칙인 Maqās . id al Sharī'ah의 h . ifz al

Framework
에이전트형 인공지능 보안을 위한 라이프사이클 기반 프레임워크

에이전트형 인공지능 보안을 위한 라이프사이클 기반 프레임워크

본 논문은 급속히 확산되는 에이전트형 인공지능(AI) 시스템이 기존 보안 패러다임에 도전한다는 점을 명확히 짚어낸다. 에이전트형 AI는 단순히 입력‑출력 관계를 넘어서, 자체 목표를 설정하고 환경과 상호작용하며 학습을 지속한다. 이러한 특성은 무단 행동(예: 권한 없는 데이터 접근), 적대적 조작(예: 적대적 샘플을 통한 정책 변조), 그리고 동적 환경 변화에 대한 실시간 대응 등 새로운 위협 벡터를 만든다. 기존 AI 보안 프레임워크는 주로 모델 무결성, 데이터 보호, 추론 단계의 공격 방어에 초점을 맞추었으며, 에이전트의 자율적

System Framework
엣지 AI 추론을 위한 사이드채널 방어 RISC V 코어 PermuteV

엣지 AI 추론을 위한 사이드채널 방어 RISC V 코어 PermuteV

엣지 AI는 센서와 디바이스가 현장에서 실시간으로 데이터를 처리하도록 함으로써 클라우드 의존도를 낮추고, 전송 지연과 에너지 소비를 크게 줄인다. 그러나 이러한 장점은 물리적 접근이 가능한 환경에 배치될 때 새로운 보안 위협을 초래한다. 특히 전자기 방출(EM) 신호는 프로세서 내부의 연산 흐름을 외부에서 비침투적으로 관찰할 수 있는 강력한 사이드채널이며, 신경망 모델의 구조·가중치와 같은 민감 정보를 추출하는 데 악용될 수 있다. 기존의 소프트웨어 기반 난수화 기법은 실행 시간과 전력 소비를 크게 늘리는 반면, 하드웨어 수준에서

주의 기반 CBAM VGG16을 활용한 식물 잎 병원균 자동 진단 및 해석 가능한 딥러닝 모델

주의 기반 CBAM VGG16을 활용한 식물 잎 병원균 자동 진단 및 해석 가능한 딥러닝 모델

본 논문은 식물 잎 병원균 자동 진단 분야에서 정확도와 해석 가능성을 동시에 만족시키는 모델 설계에 초점을 맞추었다. 기존의 CNN 기반 병 진단 모델은 높은 분류 성능을 보여왔지만, “왜 이런 결과가 나왔는가”에 대한 설명이 부족해 현장 적용에 한계가 있었다. 이를 극복하기 위해 저자들은 VGG16 구조에 Convolution Block Attention Module(CBAM)을 각 합성곱 블록 뒤에 삽입하였다. CBAM은 채널‑주의와 공간‑주의 두 단계로 구성되어, 중요한 특징 채널을 강조하고 동시에 병변이 집중된 영역을 강조한

Detection
지식 전송을 차단하는 하이브리드 프라이버시 잠금장치 AlignDP

지식 전송을 차단하는 하이브리드 프라이버시 잠금장치 AlignDP

AlignDP는 대형 언어 모델(Large Language Models, LLMs)의 데이터 인터페이스에서 지식 전송을 차단하는 혁신적인 접근법입니다. 이 연구는 LLMs이 추출, 정제 및 무단 미세 조정에 대한 위험에 노출되어 있음을 인정하고, 이러한 문제를 해결하기 위해 워터마킹이나 모니터링과 같은 기존 방어 기법의 한계를 극복하려고 합니다. AlignDP는 드문 필드와 일반적인 필드를 분리하여 각각 다른 프라이버시 보호 메커니즘을 적용합니다. 드문 필드는 PAC(Piecewise Aggregate Approximation) 구

하드와 이즈 우선순위 결합을 통한 물리정보 신경망의 안정적 고정밀 학습

하드와 이즈 우선순위 결합을 통한 물리정보 신경망의 안정적 고정밀 학습

본 논문은 물리정보신경망(PINN)의 학습 효율성을 높이기 위한 새로운 우선순위 스케줄링 전략을 제시한다. 기존에 널리 사용되는 ‘하드 우선순위’는 손실 함수에 물리적 제약을 강제로 부여해 특정 영역(예: 경계조건이나 급격한 변화가 있는 영역)의 학습을 강조한다. 이는 유한요소법(FEM)에서의 적응형 메쉬 정제와 유사한 개념으로, 어려운 영역을 먼저 해결함으로써 전체 해의 품질을 향상시키려는 목표를 가진다. 반면 ‘이즈 우선순위’는 현재 손실이 작은, 즉 학습이 비교적 쉬운 샘플에 더 많은 가중치를 부여한다. 이 접근법은 학습 초기

3차원 신경망 표현을 활용한 얼굴 이미지 통합 설명

3차원 신경망 표현을 활용한 얼굴 이미지 통합 설명

본 연구는 3차원 신경망 표현을 활용하여 캘리브레이션되지 않은 여러 개의 인간 얼굴 이미지를 통합하고 일관된 설명을 제공하는 방법을 제시합니다. 특히, Gaussian Splatting 기법이 NeRFs보다 더 명확하게 구조화되어 있어 제약 조건에 잘 대응할 수 있다는 점에서 주목할 만한 연구입니다. 본 논문은 세그멘테이션 주석을 활용하여 얼굴의 의미적 영역을 정렬함으로써, 11장의 이미지만으로 중립 자세를 재구성하는 데 성공했습니다. 이는 기존에 긴 동영상이 필요했던 것과 대조되는 중요한 발전입니다. 또한 본 논문은 Gaussia

No Image

AI와 함께하는 연구 혁신: TIB AIssistant 플랫폼

본 논문은 생성형 인공지능(AI)과 대형 언어 모델(Large Language Models, LLMs)의 발전이 연구 방법론에 미치는 잠재적 변화를 탐구하고 있다. 특히, AI가 제공하는 새로운 기회와 그로 인해 발생할 수 있는 도전 과제들을 분석한다. 논문은 TIB AIssistant라는 플랫폼을 제안하며, 이 플랫폼은 다양한 학문 분야의 연구자들이 AI를 활용하여 연구 생명 주기 전반에 걸친 작업을 수행하도록 지원하는 것을 목표로 한다. TIB AIssistant는 프롬프트와 도구 라이브러리, 공유 데이터 저장소, 유연한 조정

AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

AR/VR에서의 정확하고 효율적인 전신 동작 추적: KineST 모델

KineST는 AR/VR 애플리케이션에서 전신 동작 추적이 중요한 역할을 하는 상황에서, 헤드 마운트 디스플레이를 통해 얻은 제한적인 신호로 실제이고 다양한 동작을 재구성하는 문제에 초점을 맞춥니다. 기존의 방법들은 높은 계산 비용이나 별도의 공간적과 시간적 의존성을 모델링함으로써 정확성, 시계열 일관성 및 효율성 사이에서 균형을 맞추는 것이 어렵다는 문제를 해결하기 위해 KineST가 제안되었습니다. 이 모델은 두 가지 핵심 아이디어로 구성됩니다: 첫째, 상태공간 이중성 프레임워크 내의 스캐닝 전략을 동역학 지향 양방향 스캔으로

Model
No Image

SDFoam: 3D 장면 재구성의 새로운 패러다임

SDFoam는 3D 장면 재구성을 위한 혁신적인 접근법으로, 기존 방법들이 명시적 또는 암시적 기하학을 사용하여 각각의 장단점을 가지고 있는 반면, SDFoam은 부호화된 거리 필드(SDF)와 3D 보로노이 다이어그램을 동시에 학습하고 최적화하는 방식으로 이를 극복합니다. 이는 레이 추적 과정에서 이루어지며, 이 방법의 가장 큰 장점은 렌더링 속도, 시각적 정밀성 및 재구성 정확성 간의 좋은 균형을 제공한다는 것입니다. SDFoam은 기존 접근법들보다 더 효율적인 결과를 도출할 수 있으며, 이를 통해 3D 장면 재구성 분야에서 새로

No Image

가상현실 환경에서의 적대적 예제 기반 사이버질병 조작 연구

이 논문은 가상현실(VR) 환경에서 사이버질병(CS)의 심각도 조작 및 그에 따른 적절하지 않은 완화 전략을 연구하고 있습니다. 특히, 로컬 VR 환경과 클라우드 기반 VR 환경이 결합된 테스트베드를 개발하여 이 문제를 탐구합니다. 로컬 환경에서는 사용자의 체험 중에 CS 완화가 이루어지며, 클라우드 환경에서는 딥러닝(DL) 모델을 활용해 CS 감지를 수행하고 있습니다. 논문의 핵심은 적대적 예제를 생성하여 DL 모델에 입력함으로써 CS의 심각도를 조작하는 것입니다. 이러한 접근법은 VR 사용자의 체험 질을 저하시키거나, 심지어는

Detection
개인정보보호와 가상현실 경험의 균형: PrivateXR

개인정보보호와 가상현실 경험의 균형: PrivateXR

이 논문은 가상현실(XR) 환경에서 개인 정보 보호와 사용자 경험 사이의 균형을 탐구하고 있습니다. PrivateXR이라는 시스템은 XAI(가능성 해석 가능 인공지능)를 통해 동적인 개인정보 제어 기능을 제공하며, 이를 통해 사용자는 자신의 개인정보 노출 수준을 조절할 수 있습니다. 논문에서 제시된 가상 롤러코스터 환경에서는 이 시스템이 사용자 경험을 크게 향상시키는 것으로 나타났습니다. 특히, PrivateXR은 실시간으로 사이버질환(CS)의 심각도를 예측하는 기능을 제공합니다. CS는 가상현실에서 발생할 수 있는 불편감이나 질병

다중 스케일 주의 기반 얼굴 내재성 분해 네트워크

다중 스케일 주의 기반 얼굴 내재성 분해 네트워크

MAGINet은 얼굴 이미지 내재성 분해라는 매우 구체적인 문제에 대해 여러 혁신적인 설계 요소를 결합한 점이 눈에 띈다. 첫 번째로, 계층적 잔차 인코더를 채택함으로써 저해상도에서 고해상도로 넘어가는 과정에서 발생할 수 있는 정보 손실을 최소화한다. 이는 특히 얼굴과 같이 미세한 디테일이 중요한 영역에서 알베도 경계가 흐려지는 현상을 방지한다. 두 번째로, 병목 구조에 삽입된 공간‑채널 주의 메커니즘은 특징 맵의 중요한 영역을 자동으로 강조한다. 공간 주의는 얼굴의 눈, 입술, 턱선 등 고주파 영역에 집중하고, 채널 주의는 알베도

분산 대형 언어 모델 추론의 효율적 검증: 비용 인식 프레임워크를 통한 접근

분산 대형 언어 모델 추론의 효율적 검증: 비용 인식 프레임워크를 통한 접근

이 논문은 분산 대형 언어 모델(LLM) 추론의 품질 검증에 대한 새로운 접근 방식을 제시하고 있습니다. 기존의 품질 증명(PoQ) 방법은 계산 결과의 암호학적 검증을 사용하지만, 이 논문에서는 출력 품질에 대한 합의를 통해 이를 대체합니다. 특히, 추론 노드와 평가자 노드 간의 이질적인 컴퓨팅 비용을 고려하여 보상 메커니즘을 개선하는 데 초점을 맞추고 있습니다. 논문은 다양한 LLM과 평가 모델을 사용한 실험 결과를 통해, 특정 아키텍처의 중요성을 강조합니다. 특히, 심미적 텍스트 유사성(bi encoder)이 교차 인코더보다 더

No Image

사진 속 개들의 상호작용: 모델과 인간의 판단 일치성 분석

본 논문은 이미지와 캡션에 대한 질량 평가를 통해 모델의 추론 과정과 인간의 판단 사이에서 일관성을 분석합니다. 특히, Q Instruct(SFT) 및 Q Insight(RL) 모델을 테스트하여 기존 모델들이 이미지와 캡션 입력에 대한 점수에서 일치하지 않는 결과를 내놓는 반면, 제안된 모델은 인간의 판단과 일관되게 일치하는 점수를 제공합니다. 이 연구에서는 SFT 모델이 캡션과 등급에 대해 감독을 받지만 명시적인 추론 가이드가 부족하고, RL 모델은 점수 최적화에 초점을 맞추는 반면 인간은 해석 가능한 판단 기준을 통해 일관된 평

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

이 논문은 사회 미디어 플랫폼에서 혐오 발언과 거짓 정보의 확산 문제를 다루며, 특히 코드믹스 힌디 영어 텍스트에서 가짜 이야기에 의해 유발된 혐오 발언을 감지하는 Faux Hate 공동 작업을 탐구합니다. 이 연구는 두 가지 주요 하위 작업을 수행하는데, 첫째로 이진 Faux Hate 감지는 거짓과 혐오 발언을 분류하고, 둘째로 대상 및 심각성 예측은 혐오 발언의 목표와 그 정도를 범주화합니다. 연구팀이 개발한 시스템은 고급 자연어 처리 기술과 도메인 특异性预训练相结合,旨在提高这两项任务的性能。该系统在比赛中取得了有竞争力的结果,证明了

Model Learning
No Image

암 환자의 통증 예측: 인공지능의 새로운 가능성

본 논문은 폐암 환자들의 돌파통 예측을 위한 혁신적인 접근법을 제시하며, 이를 통해 환자의 통증 관리와 치료 효과를 향상시키는 데 중점을 두고 있다. 연구팀은 구조화된 전자 의료 기록과 비구조화된 데이터를 활용하여 머신러닝 및 대형 언어 모델을 결합한 하이브리드 시스템을 개발하였다. 이 시스템은 환자의 통증 발작을 입원 후 48시간 내외로 예측하는 데 성공하였으며, 특히 민감도의 향상으로 인해 실제 임상 적용에서 더욱 효과적인 결과를 보여주었다. 연구는 다양한 데이터 요소를 활용하여 환자의 통증 발작을 정확하게 예측할 수 있는 방법

No Image

전파형 역산의 확장 소스 접근법: 페널티 파라미터의 중요성

전파형 역산(FWI)은 고해상도의 지하 구조물 물리적 속성을 추정하는 데 사용되는 강력한 기술입니다. 그러나 FWI는 비선형적이며 병렬 역문제로, 이를 해결하기 위해 확장 소스 접근법이 필요합니다. 이 중 하나인 증강 라그랑주(AL) 방법은 페널티 파라미터(µ)를 통해 솔루션의 볼록성과 견고성을 개선하는 역할을 합니다. µ는 관찰된 데이터와 모델링된 데이터 간의 불일치를 최소화하면서, 동시에 물리적 제약 조건인 파동 방정식을 충족시키는 균형점을 찾는데 중요한 역할을 합니다. 특히 노이즈가 있는 상황에서는 µ의 선택이 수렴에 큰 영향

정보 검색 시스템의 재순위화: 기술의 발전과 미래

정보 검색 시스템의 재순위화: 기술의 발전과 미래

본 논문은 정보 검색(IR) 시스템에서 재순위화가 중요한 역할을 하는 이유와 그 발전 과정을 체계적으로 분석합니다. 특히, 최근의 Retrieval Augmented Generation (RAG) 파이프라인에 중점을 두고 있습니다. RAG는 검색된 문서들이 출력 품질에 큰 영향을 미치므로 재순위화 기법의 중요성이 더욱 부각됩니다. 논문은 재순위화 기법의 역사적 발전 경로를 탐구하며, 초기 접근 방식에서 시작해 다양한 신경망 아키텍처까지 다룹니다. 이 중에는 크로스 인코더, T5와 같은 시퀀스 생성 모델, 구조적 정보를 활용하는 그래

Model
No Image

주제 모델의 최적 주제 수 선택: 진화 알고리즘 vs. 학습 기반 최적화

본 연구에서는 LDA 모델에서 주제 수 T를 선택하는 문제를 이산 블랙박스 최적화 문제로 정식화하고, 이를 해결하기 위한 다양한 최적화 방법들을 비교한다. 특히, 본 논문은 GA와 ES라는 두 가지 진화 알고리즘과 PABBO 및 SABBO라는 학습 기반 앰ORTIZED 접근법을 평가한다. 이러한 접근법들은 각각의 장단점을 가지고 있으며, 실험 결과를 통해 그 효율성을 비교한다. GA와 ES는 전통적인 진화 알고리즘으로서, 다양한 해의 조합을 생성하고 선택 과정을 거쳐 최적해에 도달하려고 노력한다. 이러한 방법은 복잡한 문제 공간에서

Model
지능형 AI 시스템의 진화: 적응 메커니즘을 통한 성능 향상

지능형 AI 시스템의 진화: 적응 메커니즘을 통한 성능 향상

이 논문은 최첨단 지능형 AI 시스템의 성능 향상과 신뢰성 강화를 위해 적응 메커니즘에 중점을 둡니다. 이들 시스템은 기초 모델 위에 구축되어 있으며, 외부 도구와 상호작용하며 점점 더 복잡하고 전문화된 작업을 수행할 수 있도록 설계되었습니다. 논문에서는 에이전트 적응과 도구 적응이라는 두 가지 주요 범주를 제시하며, 이를 더욱 세분화하여 도구 실행 신호 및 에이전트 출력 신호에 의한 에이전트 적응 형태와 에이전트 무관 및 에이전트 감독형의 도구 적응 형태로 나눕니다. 이러한 분류는 지능형 AI 시스템에서 다양한 적응 전략을 설계하

No Image

지능형 이미지 위변조 검출 시스템 ForenAgent

이 논문은 이미지 위변조 검출(IFD) 분야에서 저수준 잡음 기반 방법과 고수준 의미 정보 기반 MLLMs의 통합을 목표로 한다. ForenAgent는 이러한 두 가지 접근 방식을 결합하여, Python 기반 도구를 활용해 이미지 위변조 검출을 수행하는 새로운 프레임워크를 제안한다. 이 프레임워크는 다중 라운드 상호작용을 통해 MLLMs가 저수준 도구를 생성하고 실행하며, 이를 반복적으로 개선함으로써 더욱 유연하고 해석 가능한 위변조 분석이 가능하도록 설계되었다. ForenAgent의 핵심은 두 단계 훈련 파이프라인과 동적 추론 루

Detection
No Image

텍스트 편집 벤치마크: 이미지 내 글자의 의미적 일관성 유지

텍스트 편집은 이미지 내에서 글자를 조작하는 복잡한 과정으로, 단순히 픽셀을 변경하는 것을 넘어 의미적, 기하학적, 그리고 문맥적 일관성을 유지해야 합니다. 이 연구는 이러한 어려움을 해결하기 위해 TextEditBench라는 새로운 평가 벤치마크를 제안합니다. 특히, 이 벤치마크는 모델들이 텍스트 편집 시 물리적 가능성과 언어적 의미를 이해하고 다중 모달 의존성을 처리할 수 있는 능력을 평가하는데 중점을 둡니다. 이를 통해 연구진은 '의미 기대(SE)'라는 새로운 평가 차원을 도입하여, 텍스트 편집 과정에서의 의미적 일관성과 다중

No Image

확장된 유틸리티 함수를 갖춘 AIXI 강화학습 에이전트

이 논문은 AIXI 강화학습 에이전트의 이론을 확장하여 더 넓은 클래스의 유틸리티 함수를 적용할 수 있도록 합니다. 특히, 가능한 상호작용 역사에 대한 각각의 유틸리티를 할당함으로써, 에이전트가 미래의 불확실성을 어떻게 다루는지에 대해 새로운 관점을 제시합니다. 이 논문은 '사망 가능성'이라는 개념을 도입하여, 특정 가설들이 역사의 유한 접두사를 예측하는 것만을 의미하게 되어 이를 해석할 때 발생하는 불확실성 문제를 해결하려고 합니다. 또한, Choquet 적분을 사용하여 기대 유틸리티를 계산하는 방법을 제안합니다. 이는 불명확한

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

이 논문은 MLLMs의 시각적 이해력 향상을 위해 JARVIS라는 새로운 프레임워크를 제안한다. 기존 MLLMs는 주로 언어적인 설명을 통해 학습하므로, 이에 따른 한계점이 존재한다. 특히, 언어 기반 감독 신호의 주관성과 불완전함으로 인해 시각적 추론 능력이 제한적이며, 다중모달 지시어 튜닝의 규모가 작아 시각적 세부 사항을 무시하는 경향이 있다. JARVIS는 이러한 문제를 해결하기 위해 JEPA 학습 패러다임을 MLLMs 훈련 파이프라인에 통합한다. 이 프레임워크는 동결된 시각 기반 모델을 활용하여 예측기를 훈련시키고, 언어

Model Learning
기반모델의 의료영상 진단: 가능성과 한계

기반모델의 의료영상 진단: 가능성과 한계

본 논문은 기반모델(Foundation Models)이 의료 영상 분야에서 어떻게 활용되고 있는지에 대해 깊이 있게 분석합니다. FMs는 단순히 패턴을 인식하는 데 그치지 않고, 복잡한 임상 사고를 모방하고 공간 관계를 이해하며 다중모달 데이터를 통합하는 능력을 갖추고 있습니다. 그러나 이러한 가능성과 실제 활용 사이에는 큰 간극이 존재합니다. 논문은 FMs의 핵심 기능과 한계를 평가하면서, 이들 모델들이 진정한 인지력을 보여주고 있는지 아니면 표면적인 패턴을 단순히 흉내 내는 것인지에 대해 검토하고 있습니다. 또한 논문은 통계적

Model
No Image

나무 종 분류를 위한 TLS와 딥러닝의 결정 과정 해석

본 논문은 TLS(Terrestrial Laser Scanning) 데이터를 활용한 나무 종류 분류 모델의 결정 과정 해석에 초점을 맞추고 있다. 특히, Finer CAM(Class Activation Mapping)이라는 기술을 통해 딥러닝 모델이 어떤 특징에 집중하여 나무 종을 구분하는지 분석한다. 연구팀은 7종류의 유럽 나무들로부터 수집된 TLS 데이터를 이용해 YOLOv8 모델을 학습하고 검증하였으며, 평균 정확도는 96%에 달했다. 이 연구에서 중요한 발견 중 하나는, 딥러닝 모델이 나무의 콘크로나트(crown) 특징에 크

다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

다중균주 바이오필름 성장 모델의 베이지안 업데이트와 시간분리 확률역학 기반 차원축소

이 논문은 바이오필름 성장 모델링 분야에서 ‘하이브리드 불확실성’이라는 복합적인 난제를 해결하려는 시도로 눈길을 끈다. 기존의 베이지안 모델 업데이트는 주로 인식 불확실성만을 고려하거나, 우연 불확실성을 별도의 몬테카를로 시뮬레이션으로 처리해 이중 루프 구조를 취한다. 이중 루프는 매 반복마다 고비용의 전방 시뮬레이션을 수행해야 하므로 계산량이 급격히 증가하고, 실시간 혹은 대규모 파라미터 탐색에 부적합하다. 저자들은 이러한 한계를 극복하기 위해 시간분리 확률역학(TSM) 기반 차원축소 모델(ROM)을 도입한다. TSM은 시스템의

Model
분기 예측의 핵심: 워크로드 특성화를 통한 정확도 향상

분기 예측의 핵심: 워크로드 특성화를 통한 정확도 향상

이 논문은 분기 예측의 핵심 문제인 정확도 향상을 위해 워크로드 특성화 방법론을 제시하고, 이를 통해 새로운 분석 지표들을 도입합니다. '분기 작업 집합 크기'와 '분기 예측 가능성'이라는 두 가지 매개변수는 현대적인 분기 예측 알고리즘의 성능에 직접적으로 영향을 미치며, 이들 매개변수를 통해 특정 워크로드가 어떤 분기 예측 기법에 더 적합한지 판단할 수 있게 됩니다. 논문은 2,451개의 워크로드 트레이스를 분석하여 이러한 지표들을 통해 각 워크로드의 특성을 파악하고 이를 통해 현대적인 분기 예측기의 정확도에 대한 깊이 있는 이해

No Image

언어모델의 성능 향상을 위한 도구 호출 최적화

본 논문은 언어 모델(LMs)의 성능 향상을 위해 도구 호출에 대한 최적화 방법을 제안하고 있습니다. LMs는 외부 도구와 상호작용하여 파일 검색, 코드 실행, API 호출 등을 수행하며, 이러한 작업들은 추론 과정에서 병목 현상이 발생할 수 있는 주요 원인입니다. 논문에서는 이 문제를 해결하기 위해 도구 호출을 예측하고 인퍼런스 엔진에 시퀀스를 최소한의 오버헤드로 유지하는 방법을 제안합니다. 제안된 최적화 기법은 LM 에이전트의 처리량을 크게 향상시킵니다. 특히, 초당 수백 토큰의 처리량 향상을 보여주며, 이는 LMs가 복잡한 추

Model

< 분야별 논문 현황 (Total: 821) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
12

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키