Learning

'Learning' 태그의 모든 글

총 65개의 글
시간순 정렬
비조영 CT 기반 폐색전증 자동 진단을 위한 3D 딥러닝 모델

비조영 CT 기반 폐색전증 자동 진단을 위한 3D 딥러닝 모델

본 논문은 임상 현장에서 조영제 사용에 따른 부작용과 시간 지연 문제를 해결하고자, 비조영 CT 영상만을 이용해 폐색전증을 자동으로 판별하는 3D 합성곱 신경망(3D‑CNN) 모델을 개발하였다. 먼저 데이터셋 구축 단계에서 조영제 사용이 금지된 환자군과 기존 CTPA 영상에서 라벨링된 폐색전증 사례를 매칭시켜, 비조영 CT와 라벨 정보를 일치시켰다. 이는 라벨링 비용을 크게 절감하면서도 실제 임상 상황을 반영한 데이터베이스를 확보하는 전략이다. 모델 구조는 입력 볼륨을 3차원으로 처리하여 폐혈관 및 주변 조직의 미세한 밀도 차이를

Computer Vision Computer Science Learning
No Image

시간적 근거를 갖춘 비디오‑언어 모델을 위한 팩터화 학습

이 논문은 기존 비디오‑언어 모델이 “한 번에 전체 비디오를 요약하고 질문에 답한다”는 전통적인 패러다임을 탈피한다는 점에서 큰 의미가 있다. 기존 방법들은 종종 시간적 정보를 흐릿하게 처리하거나, 근거가 되는 시각적 증거를 명시적으로 제시하지 못해 해석 가능성이 낮았다. 저자들은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 제시한다. 첫 번째는 generation objective의 factorization 이다. 모델이 먼저 “어떤 시간 구간이 질문에 대한 근거가 되는가”를 판단하고, 그 구간에 해당하는 evidence

Computer Science Model Learning Computer Vision
지반공학에서 딥러닝: 물리 기반 신경망과 연산자 학습에 대한 비판적 고찰

지반공학에서 딥러닝: 물리 기반 신경망과 연산자 학습에 대한 비판적 고찰

이 논문은 최근 지반공학 분야에 도입된 세 가지 딥러닝 프레임워크—물리 기반 신경망(PINN), 딥 연산자 네트워크(DeepONet), 그래프 네트워크 시뮬레이터(GNS)—를 전통적인 수치 해법과 직접 비교함으로써 실용성을 평가한다. 첫 번째 실험인 파동 전파 문제는 고주파 동적 응답을 정확히 포착해야 하는 전형적인 테스트베드이다. 여기서 PINN은 물리 방정식을 손실 함수에 직접 삽입하는 방식임에도 불구하고, 미분 연산과 최적화 과정에서 발생하는 수치적 불안정성으로 인해 유한차분(FD) 대비 90 000배 느려졌다. 오차 측면에서

Learning Physics
학습 역학을 위한 다층 형식 기술 프레임워크

학습 역학을 위한 다층 형식 기술 프레임워크

이 논문이 제시하는 다층 형식 기술 프레임워크는 학습 과정을 ‘기술’한다는 점에서 기존의 ‘예측·최적화’ 중심 모델과 근본적으로 차별화된다. 학습은 단순히 성과를 높이는 목표 함수의 최소화가 아니라, 학습자 내부의 상태가 외부 자극과 어떻게 상호작용하면서 변형되는가에 대한 서술적 이해가 필요하다. 이를 위해 저자는 학습을 네 개의 기능적 층—부하 생성층, 내부 변환층, 관찰·측정층, 평가·조절층—으로 분리하고, 각 층이 담당하는 책임을 명확히 정의한다. 첫 번째 부하 생성층은 외부 과제·자료가 학습자에게 제공될 때 발생하는 인지 부

Learning System
빅데이터 교육 실습 종합 보고서

빅데이터 교육 실습 종합 보고서

종합 분석: 빅데이터 교육 실습 보고서 1. 연구 개요와 방법론 본 연구는 빅데이터 프로젝트의 통합적 접근 방식을 취하며, 세 가지 사례를 통해 다양한 데이터 유형과 규모에 대한 분석 기법을 다룹니다. Epsilon 데이터셋 : 이진 분류 문제를 해결하기 위해 MLP 모델을 사용하여 2000개의 특징과 100,000개의 인스턴스로 훈련되었습니다. PyTorch와 GPU 가속(CUDA)을 활용해 88.98%의 정확도를 달성했습니다. Rest Mex 데이터셋 : 멕시코 관광 리뷰 데이터셋에 대해 감정 분석 파이프라인을 구현하였습니다.

Data Learning
메타계층 강화학습을 이용한 O RAN 자원 관리와 네트워크 슬라이싱 최적화

메타계층 강화학습을 이용한 O RAN 자원 관리와 네트워크 슬라이싱 최적화

본 논문은 O‑RAN 환경에서 자원 할당과 네트워크 슬라이싱을 동시에 최적화하기 위한 새로운 학습 프레임워크를 제시한다는 점에서 학술적·실무적 의의가 크다. 첫 번째로, 기존 메타‑강화학습(Meta‑RL) 연구들은 주로 단일 레벨 정책을 학습하는 데 그쳤으며, 복잡한 O‑RAN 시스템처럼 다중 계층의 의사결정 구조를 반영하지 못했다. 저자는 이를 보완하기 위해 고수준 ‘자원 할당 컨트롤러’와 저수준 ‘슬라이스 내부 스케줄러’라는 두 개의 에이전트를 계층적으로 배치하고, 각각이 독립적인 강화학습 과정을 수행하도록 설계하였다. 이러한

Learning
기계 학습 삭제의 프라이버시 위협과 텔레포테이션 방어: WARP의 실효성 분석

기계 학습 삭제의 프라이버시 위협과 텔레포테이션 방어: WARP의 실효성 분석

기계 학습 모델에서 특정 샘플을 ‘삭제’하는 작업은 실제 서비스 환경에서 개인정보 보호 규정을 준수하기 위해 필수적이다. 전통적인 완전 재학습 방식은 비용이 많이 들고 실시간 서비스에 적용하기 어렵다. 따라서 최근에는 근사 삭제(approximate unlearning) 기법이 활발히 연구되고 있다. 이들 기법은 원본 모델 파라미터를 약간만 조정하거나, 손실 함수에 삭제 대상 샘플을 제외한 형태로 재학습함으로써 빠른 삭제를 목표로 한다. 하지만 본 논문이 지적하듯, 근사 삭제는 두 가지 구조적 특성 때문에 프라이버시 위험을 내포한다

Learning
언어와 보상이 결합된 프롬프트 기반 정책 탐색

언어와 보상이 결합된 프롬프트 기반 정책 탐색

Prompted Policy Search(ProPS)는 기존 강화학습 패러다임에 근본적인 변화를 시도한다. 전통적인 RL 알고리즘은 주로 환경으로부터 얻는 스칼라 보상에 기반해 정책을 업데이트한다. 이 접근법은 수학적으로는 깔끔하지만, 실제 문제에서는 목표 설명, 제약 조건, 인간 전문가의 조언 등 텍스트 형태의 풍부한 메타 정보를 무시한다는 한계가 있다. ProPS는 이러한 한계를 극복하기 위해 대형 언어 모델(LLM)을 정책 최적화의 핵심 엔진으로 활용한다. 구체적으로, 에이전트가 환경에서 얻은 보상과 함께 “목표는 ‘공을 잡아

Learning
신뢰 기반 사회 학습으로 촉진되는 자생 커뮤니케이션

신뢰 기반 사회 학습으로 촉진되는 자생 커뮤니케이션

TSLEC 논문은 기존의 다중 에이전트 커뮤니케이션 연구에서 간과되던 ‘사회적 전이’를 체계적으로 모델링한 점이 가장 큰 혁신이다. 기존 접근법은 각 에이전트가 환경 보상만을 이용해 독립적으로 언어를 형성하도록 설계돼, 초기 탐색 단계에서 무수히 많은 비효율적인 신호 조합이 발생한다. 이러한 비효율성은 학습 곡선이 완만하고, 최종 프로토콜이 비구조적이며, 환경 변화에 취약한 단점으로 이어진다. TSLEC은 두 가지 핵심 메커니즘을 도입한다. 첫째, 교사‑학생 메커니즘 을 통해 에이전트가 자신의 성공적인 행동‑신호 매핑을 다른 에이전

Learning
No Image

객체 중심 학습의 혁신: CODA로 구현되는 정확하고 유연한 객체 표현

본 논문은 객체 중심 학습(Object centric Learning, OCL) 분야에서 중요한 기술적 혁신을 제시하고 있습니다. CODA(Contrastive Object centric Diffusion Alignment)는 사전 학습된 디퓨전 모델을 활용하여 슬롯 엮임과 약한 정렬이라는 주요 도전 과제를 해결하는 새로운 접근 방식입니다. 기술적 혁신성: 1. 등록 슬롯(Register Slots): 등록 슬롯은 독립적인 입력 데이터로 추가되어 잔여 주의를 흡수하고 객체 슬롯 간의 간섭을 줄이는 역할을 합니다. 이는 슬롯 엮임 문

Computer Science Learning Computer Vision
No Image

CoCo‑Fed 메모리·통신 효율을 동시에 잡는 통합 연합 학습 프레임워크

CoCo‑Fed가 제시하는 두 가지 핵심 혁신은 ‘이중 차원 다운프로젝션’과 ‘직교 부분공간 초중첩 전송’이다. 첫 번째 단계에서는 기존 연합 학습에서 각 gNB가 전체 모델 파라미터에 대한 그래디언트를 저장·전송해야 하는 문제를 해결한다. 저자들은 그래디언트를 먼저 채널 차원(예: 입력 피처)과 모델 차원(예: 출력 피처) 두 축에서 각각 저‑랭크 행렬로 근사한다. 이때 사용되는 투사 행렬은 사전에 학습된 고정 정규 직교 행렬이거나, 각 라운드마다 랜덤하게 생성된 스케치 행렬일 수 있다. 이렇게 하면 메모리 요구량이 O(rank·

Computer Science Learning Information Theory Framework
흐름을 타라 에이전트 제작과 록앤롤 그리고 오픈 에이전트 학습 생태계 내 ROME 모델 구축

흐름을 타라 에이전트 제작과 록앤롤 그리고 오픈 에이전트 학습 생태계 내 ROME 모델 구축

본 논문은 “에이전트 제작(agentic crafting)”이라는 개념을 기존의 일회성 텍스트 생성과 구별하여, 실제 세계에서 다중 턴을 거쳐 행동하고 그 결과를 관찰·피드백하는 반복적 프로세스로 정의한다. 이는 단순히 코드를 자동 생성하는 수준을 넘어, 복합적인 툴 체인과 언어 기반 워크플로 전반에 걸쳐 모델이 계획·실행·모니터링·수정까지 전 과정을 담당해야 함을 의미한다. 이러한 요구를 충족하려면 모델 자체뿐 아니라, 모델이 작동할 환경, 데이터 파이프라인, 학습·배포 인프라가 모두 유기적으로 연결된 ‘에이전트 학습 생태계(AL

Model Artificial Intelligence System Computer Science Learning
고성능 머신러닝 스트림 컴퓨팅을 위한 데이터플로우 프레임워크

고성능 머신러닝 스트림 컴퓨팅을 위한 데이터플로우 프레임워크

본 논문은 데이터 과학 실무에서 가장 빈번히 마주치는 ‘데이터는 유한하고 완전하다’는 가정을 근본적으로 뒤흔든다. 전통적인 배치 기반 워크플로우는 고정된 데이터셋을 한 번에 메모리로 로드하거나 단일 패스로 처리한다는 전제하에 설계되었으며, 이는 센서 스트림, 금융 거래 로그, 시스템 이벤트와 같이 시간에 따라 지속적으로 생성되는 데이터와는 근본적으로 맞지 않는다. 저자는 이러한 불일치를 해결하기 위해 Causify DataFlow라는 통합 컴퓨테이셔널 모델을 제안한다. 첫째, 프레임워크는 DAG를 선언적으로 정의하고, 동일한 정의를

Framework Machine Learning Computer Science Learning Data
실시간 도로 상태 모니터링 시스템: 날씨와 이미지 기반의 깊은 학습 접근법

실시간 도로 상태 모니터링 시스템: 날씨와 이미지 기반의 깊은 학습 접근법

본 연구는 실시간 도로 상태 모니터링 시스템의 개발을 목표로 하며, 이를 통해 차량 관리 및 활성 차량 제어 시스템에 필요한 정보를 제공하고자 합니다. 전통적인 방법들이 비용과 시간이 많이 소요되는 반면, 본 연구에서는 날씨 조건 데이터와 도로 표면 상태 데이터를 활용한 새로운 접근법을 제시합니다. 특히, 칼스루에 공과대학교 주변 도로에서 모바일 폰 카메라를 이용해 수집된 이미지 데이터와 가속도 데이터를 통해 다양한 딥러닝 알고리즘의 성능을 비교하였습니다. 본 연구에서는 Alexnet, LeNet, VGG 및 Resnet 등 네 가

Learning
벤치마크는 성공 임상은 실패 강화학습이 환자보다 지표에 최적화될 때

벤치마크는 성공 임상은 실패 강화학습이 환자보다 지표에 최적화될 때

본 논문은 의료 영상 분야에서 최근 각광받고 있는 강화학습(RL) 기반 파인튜닝이 실제 임상 적용에 어떤 함의를 갖는지 심도 있게 탐구한다. 먼저 저자들은 “R1‑style”이라 명명한 두 단계 학습 파이프라인을 제시한다. 첫 단계는 비교적 적은 양(2,000개)의 라벨링된 이미지‑텍스트 쌍을 이용한 지도학습(Supervised Fine‑Tuning, SFT)이며, 두 번째 단계는 1,000개의 RL 샘플을 활용해 GRPO(Goal‑oriented Reward‑based Policy Optimization)라는 정책 최적화 기법을

Computer Science Artificial Intelligence Learning
No Image

계속학습에서의 재현성과 공정한 비교를 위한 통합 플랫폼 LibContinual

이 논문은 계속학습(Continual Learning) 분야에서 중요한 문제인 치명적인 잊음을 해결하기 위해 LibContinual이라는 새로운 라이브러리를 제안하고 있습니다. 이 라이브러리는 고결합 저결착 모듈형 아키텍처를 기반으로, 5개의 주요 방법론 카테고리에 걸쳐 19개의 대표적인 알고리즘을 통합하여 제공합니다. 이러한 구조는 다양한 CL 방법들을 비교하고 재현 가능한 연구 환경을 제공하는 데 중요한 역할을 합니다. 논문은 또한 현재 평가에서 일반적으로 발견되는 세 가지 암묵적인 가정(오프라인 데이터 접근 가능성, 제한 없는

Learning
No Image

모듈화 확산 정책 프레임워크: 복잡한 로봇 행동 분포에 대한 효과적인 학습

본 논문은 다중 작업 학습의 복잡성을 해결하기 위해 새로운 접근법을 제시합니다. 로봇 행동 분포는 매우 다양하고, 이로 인해 일관된 모델이 이를 효과적으로 학습하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 논문은 모듈화된 확산 정책 프레임워크를 제안합니다. 이 프레임워크는 복잡한 행동 분포를 여러 개의 특수화된 확산 모델로 분해하여 각각이 특정 하위 모드를 포착하도록 합니다. 이러한 접근법은 각 모듈이 독립적으로 학습하고, 필요에 따라 추가하거나 조정할 수 있어 새로운 작업에 대한 유연한 적응을 가능하게 합니다. 또한,

Learning
No Image

컨텍스트 밴딧으로 최적화하는 Raft 타임아웃 적응 메커니즘 BALLAST

이 논문은 Raft 합의 프로토콜에서 가장 흔히 사용되는 무작위 선출 타임아웃이 장기 지연(long‑tail latency)이나 네트워크 파티션 복구 시에 발생하는 “분할 투표(split vote)” 현상으로 인해 시스템 가용성이 급격히 저하되는 문제점을 정확히 짚어낸다. 기존 연구들은 타임아웃 값을 고정하거나 단순히 평균 지연에 기반한 조정 방식을 제안했지만, 이러한 접근법은 네트워크 상태가 급변하거나 비정상적인 지연 분포가 나타날 때 적응성이 부족하다. BALLAST는 이러한 한계를 극복하기 위해 ‘컨텍스트 밴딧(contextu

Learning
건조기후의 영향 예측: 머신러닝을 활용한 신속 대응 시스템 개발

건조기후의 영향 예측: 머신러닝을 활용한 신속 대응 시스템 개발

본 논문은 최근 증가하는 건조의 심각성과 빈도에 대응하기 위해 머신러닝 기법을 활용한 건조 영향 예측 모델 개발에 초점을 맞추고 있습니다. 특히, Drought Severity and Coverage Index (DSCI)와 Evaporative Stress Index (ESI)를 사용하여 건조의 영향을 예측하고자 하였습니다. 연구는 2005년부터 2024년까지의 데이터를 활용하였으며, Fire와 Relief 영역에서 가장 높은 예측 정확도를 보였고, Agriculture와 Water 분야에서는 그 다음으로 높은 정확도가 나타났습니

Learning
No Image

대규모 감독 학습을 위한 3D ConvNeXt 백본 MedNeXt 버전2 효율적 표현 학습과 스케일링 전략

본 논문은 최근 의료 영상 분야에서 급부상하고 있는 ‘대규모 감독 사전학습(Supervised Pre‑training)’ 흐름에 중요한 질문을 제기한다. 대부분의 연구가 데이터 양을 늘리는 방향에만 집중한 반면, 실제 모델이 대규모 데이터에서 얼마나 효율적으로 특징을 추출하고 일반화할 수 있는지는 충분히 검증되지 않았다. 저자들은 이러한 공백을 메우기 위해 ConvNeXt라는 최신 2D 비전 백본을 3차원 볼류메트릭 작업에 맞게 재설계하고, 이를 ‘MedNeXt‑v2’라는 이름으로 제시한다. 핵심 기여는 크게 네 가지로 정리할 수

Learning
No Image

ELVIS: 비디오 스트리밍 품질과 재생의 균형

ELVIS 아키텍처는 전통적인 코드크와의 차별화된 접근법으로 주목할 만합니다. 이 논문은 서버 측 인코딩 최적화와 클라이언트 측 생성형 인페인팅을 결합하여 중복 데이터를 제거하고 재구성하는 방법을 제시합니다. 이러한 접근법은 대역폭 사용을 줄이면서도 높은 화질을 유지할 수 있는 새로운 가능성을 열어줍니다. ELVIS의 모듈식 설계는 다양한 코드크, 인페인팅 모델, 품질 지표를 쉽게 통합할 수 있게 하며, 이는 미래 기술 발전에 대한 유연성과 확장성을 제공합니다. 또한, 현재 기술이 베이스라인보다 최대 11 VMAF 점을 개선한 결과

Learning
강화학습 에이전트의 안정적 학습을 위한 하이퍼볼릭 특징 공간 활용

강화학습 에이전트의 안정적 학습을 위한 하이퍼볼릭 특징 공간 활용

본 논문은 강화학습(Reinforcement Learning, RL) 에이전트의 성능 향상을 위해 하이퍼볼릭 특징 공간을 활용하는 방법에 대해 깊게 분석하고 있다. 특히, 포앙카레 공(Poincaré Ball)과 하이퍼볼로이드(Hyperboloid) 모델에서 핵심 연산들의 그래디언트를 분석함으로써, 큰 노름(embedding norm)은 그래디언트 기반 훈련을 불안정하게 만들고 근접 정책 최적화(Proximal Policy Optimization, PPO)의 신뢰 영역 위반(trust region violation)을 초래한다는 것

Learning
No Image

카디널리티 추정을 개선하는 TiCard: 데이터베이스 최적화의 새로운 지평

이 논문은 카디널리티 추정 문제를 해결하기 위해 TiCard라는 새로운 프레임워크를 소개하고 있습니다. 카디널리티 추정은 데이터베이스 쿼리 최적화에서 중요한 역할을 하지만, 기존의 방법들은 상관관계를 고려하지 못하거나 특정 작업 부하에 맞는 별도의 훈련 파이프라인과 통합이 필요하다는 문제점이 있습니다. TiCard는 이러한 제약을 극복하기 위해 데이터베이스의 원래 추정기를 보완하는 방식으로 설계되었습니다. TiCard는 두 가지 주요 구성 요소를 사용합니다: 그레디언트 부스팅 회귀기(Gradient Boosting Regressor

Learning
해석 가능한 결정트리 기반 선호 베이지안 최적화

해석 가능한 결정트리 기반 선호 베이지안 최적화

본 논문은 베이지안 최적화의 한계점을 극복하고자 결정트리를 새로운 대리 모델로 제시한다. 이는 가우시안 프로세스(GP)를 사용하는 기존 방법과 달리 해석성이 뛰어나며, 연속형 및 범주형 데이터 처리 능력이 강화되어 실제 적용에 유용하다. 결정트리는 복잡한 모델을 이해하기 쉽게 시각화할 수 있어, 최적화 과정에서 얻은 결과를 직관적으로 해석하고 활용하는 데 도움이 된다. 특히, 본 논문의 실험에서는 날카로운 함수에 대한 성능 향상이 확인되었으며, 이는 실제 세계에서 자주 발생하는 불규칙적인 데이터 분포에 효과적일 수 있음을 시사한다.

Learning Model
반응형 학습을 통한 수학적 추론 모델의 효율적인 훈련: TRAPO 알고리즘

반응형 학습을 통한 수학적 추론 모델의 효율적인 훈련: TRAPO 알고리즘

본 논문은 강화학습과 준감독 학습을 결합하여 대규모 추론 모델(LRMs)을 효율적으로 훈련하는 방법을 제안하고 있습니다. 특히, TRAPO 알고리즘을 통해 소량의 라벨링 데이터와 많은 비라벨 데이터를 활용해 모델을 안정화시키고, 이를 통해 높은 정확도와 강력한 일반화 성능을 달성할 수 있음을 보여주었습니다. 이 연구는 기존 무감독 RLVR 방법들이 훈련 후기 단계에서 일관성을 유지하지 못하고 모델 붕괴를 겪는 문제를 해결하는 데 중점을 두고 있습니다. TRAPO 알고리즘은 학습 경로 유사성 분석을 통해 신뢰할 수 있는 비라벨 샘플을

Framework Learning
대규모 생성 모델에서 개인 신원 제거를 위한 SUGAR 프레임워크

대규모 생성 모델에서 개인 신원 제거를 위한 SUGAR 프레임워크

본 논문은 생성 모델의 ‘언러닝(unlearning)’이라는 비교적 새로운 연구 영역에 실용적인 해결책을 제시한다는 점에서 큰 의미를 가진다. 기존의 생성 모델은 대규모 데이터셋을 기반으로 학습되며, 한 번 학습된 파라미터를 수정하거나 특정 샘플을 제거하려면 전체 모델을 재학습해야 하는 비효율적인 구조를 가지고 있었다. 특히 얼굴 합성처럼 개인 식별이 가능한 데이터를 다루는 경우, 법적·윤리적 요구에 따라 특정 인물의 데이터를 즉시 삭제할 필요가 있다. SUGAR는 이러한 요구를 충족시키기 위해 두 가지 핵심 아이디어를 도입한다.

Learning
시계열 범위 강화학습 정책의 기억 사용량 측정

시계열 범위 강화학습 정책의 기억 사용량 측정

Temporal Range는 강화학습 에이전트가 과거 관측을 얼마나 활용하는지를 정량화하려는 시도에서 출발한다. 기존 연구에서는 정책 네트워크의 구조적 메모리 용량(예: RNN의 hidden size)이나 훈련된 모델의 성능을 통해 간접적으로 추정했지만, 실제 입력‑출력 관계가 어느 시점까지 영향을 미치는지는 명확히 드러나지 않았다. 이 논문은 그런 공백을 메우기 위해 “시간적 영향 프로파일”이라는 개념을 도입한다. 구체적으로, 시점 t 에서 입력 x t 가 이후 시점 s ( t < s ≤ T )의 출력 y s 에 미치는 1차 민감

Learning
JPEG DCT 기반 초고해상도 학습으로 데이터 로딩 2·5배 가속

JPEG DCT 기반 초고해상도 학습으로 데이터 로딩 2·5배 가속

본 논문은 딥러닝 기반 이미지 복원 분야에서 흔히 간과되는 데이터 전처리 단계, 즉 JPEG 디코딩 과정이 전체 파이프라인의 효율성을 크게 저해한다는 점을 정확히 짚어냈다. JPEG 포맷은 이미지 데이터를 8×8 블록 단위의 이산 코사인 변환(DCT) 계수와 양자화 테이블로 압축하는데, 이 과정에서 원본 픽셀값을 복원하기 위해서는 역변환과 역양자화가 필요하다. 이러한 연산은 CPU 중심의 작업으로, GPU 가속이 가능한 딥러닝 연산과는 별도로 수행되며 메모리 대역폭과 I/O 병목을 초래한다. 논문은 이러한 병목을 해소하기 위해, D

Learning
스파이킹 신경망의 그래디언트 유출 방어 효과

스파이킹 신경망의 그래디언트 유출 방어 효과

스파이킹 신경망(SNN)이 최근 엣지 디바이스와 저전력 AI 솔루션에서 각광받는 이유는, 뉴런이 스파이크(이산적인 전기 펄스) 형태로 정보를 전달함으로써 연산량과 에너지 소비를 최소화할 수 있기 때문이다. 이러한 구조적 특성은 기존의 연속적인 활성값을 사용하는 인공신경망(ANN)과 근본적으로 다르며, 특히 학습 과정에서도 차별점을 만든다. ANN은 역전파를 통해 정확한 미분값을 계산해 가중치를 업데이트하지만, SNN은 스파이크 발생 자체가 비미분 가능하기 때문에 대리 그래디언트(surrogate gradient)라는 근사 방법을 도

Network Learning
LLM으로 자동 보상 함수 설계하는 LEARN Opt 프레임워크

LLM으로 자동 보상 함수 설계하는 LEARN Opt 프레임워크

본 논문이 제시하는 LEARN‑Opt 프레임워크는 강화학습에서 보상 함수를 설계하는 전통적인 워크플로우를 근본적으로 재구성한다는 점에서 학술적·실용적 의의가 크다. 기존 방법들은 보통 두 단계, 즉(1) 인간이 정의한 메트릭을 기반으로 후보 보상 함수를 생성하고, (2) 인간 혹은 전문가 피드백을 통해 후보를 정제하는 과정을 거친다. 이러한 접근은 인간 전문가의 가용성에 크게 의존하며, 특히 복잡한 도메인에서는 메트릭 설계 자체가 어려운 문제다. LEARN‑Opt는 LLM을 활용해 시스템 설명과 과제 목표만을 입력으로 받아, 자동으

Learning
빠른 언어 행동 선호 학습

빠른 언어 행동 선호 학습

본 논문은 인간‑로봇 상호작용(HRI) 분야에서 장기적으로 중요한 문제인 ‘다중모달 피드백을 통한 보상 학습’에 대해 실용적인 해결책을 제시한다. 기존 연구들은 물리적 교정(예: 시연, 물리적 끌어당김)이나 언어적 지시(예: 명령문, 설명) 중 하나에 초점을 맞추었으며, 두 모달리티를 결합하려는 시도는 대부분 규칙 기반이거나 사후 통합 방식에 머물렀다. 이러한 접근은 (1) 물리적 교정이 의도 해석에 불확실성을 내포하고, (2) 언어가 구체적인 행동 매핑을 제공하지 못한다는 근본적인 한계를 극복하지 못한다. QuickLAP은 이러한

Learning
AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

AI 코딩 도우미 시대 ML 프로젝트 성공을 이끄는 네 가지 핵심 요소

본 논문은 현재 AI 기반 코딩 어시스턴트가 개발 현장에서 널리 활용되는 상황에서, 왜 여전히 ML 프로젝트의 성공률이 낮은지를 체계적으로 탐구한다. 연구자는 먼저 기존 문헌을 검토하여 성공 요인을 전략, 프로세스, 생태계, 지원 네 가지 차원으로 구분하고, 이를 시각화한 ‘머신러닝 캔버스’를 제안한다. 설문 설계는 각 차원을 정량화할 수 있는 항목들을 포함했으며, 150명의 데이터 과학자를 대상으로 6개월에 걸쳐 데이터를 수집하였다. 통계 분석에는 구조방정식 모델링(SEM)을 활용해 요인 간 인과관계를 검증했으며, β값과 p값을

Learning
No Image

FALCON 교차 도메인 소수 샷 적대 학습 기반 의료 영상 분할

FALCON 논문은 현재 의료 영상 분할 분야가 직면한 세 가지 핵심 문제—라벨 데이터의 희소성, 환자 간 해부학적 변이, 그리고 실시간 임상 적용을 위한 연산 효율성—를 동시에 해결하려는 시도로 평가할 수 있다. 가장 눈에 띄는 점은 “메타‑학습 → 적대적 파인튜닝 → 경계 인식 학습”이라는 3단계 전이 전략이다. 첫 단계에서 자연 이미지(예: PASCAL‑5ⁱ, COCO‑20ⁱ)로 메타‑러닝을 수행함으로써, 다양한 클래스와 복잡한 배경을 가진 상황에서도 빠르게 새로운 태스크에 적응할 수 있는 ‘학습‑학습’ 메커니즘을 구축한다.

Computer Vision Computer Science Learning
그래프 신경망의 과거를 활용한 미래: HISTOGRAPH로 노드 임베딩의 진화 모델링

그래프 신경망의 과거를 활용한 미래: HISTOGRAPH로 노드 임베딩의 진화 모델링

HISTOGRAPH는 그래프 신경망(GNN) 분야의 중요한 발전을 이끌어내며, 특히 노드 임베딩의 진화와 공간적 상호작용을 동시에 모델링하는 데 중점을 두고 있습니다. 이러한 접근법은 기존 GNN 아키텍처를 개선하고, 다양한 그래프 관련 작업에서 우수한 성능을 달성할 수 있는 새로운 방향성을 제시합니다. 기술적 혁신성: HISTOGRAPH의 핵심 혁신 중 하나는 역사적 활성화 추적 입니다. 이 접근법은 GNN이 메시지 전달과 집계를 통해 노드 임베딩을 생성하는 과정에서 발생한 시간적 경로를 고려합니다. 각 노드의 층별 표현을 시퀀스

Computer Science Network Learning Machine Learning
데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

이 논문은 콘크리트 구조물 내에서 염화물의 시간 경과 변화에 미치는 혼합물 조성의 영향을 분석하는데 초점을 맞추고 있다. 이를 위해 다양한 머신러닝 알고리즘을 사용하여 데이터 주도적 접근법을 적용한다. 연구 방법론은 간단한 선형 회귀, k 최근접 이웃 회귀, 커널 리지 회귀와 복잡한 서포트 벡터 회귀, 가우시안 프로세스 회귀, 다층 퍼셉트론(MLP), 게이트 순환 유닛(GRU)을 포함한다. 각 알고리즘의 성능은 다양한 지표를 통해 평가되며, 특히 GPR 모델은 명확하고 설명 가능한 추세를 제공하여 숨겨진 상관관계를 드러내는 데 효과

Computer Science Learning Data Machine Learning
VisNet 효율적인 사람 재식별을 위한 알파다이버전스 손실 특징 융합 동적 다중작업 학습

VisNet 효율적인 사람 재식별을 위한 알파다이버전스 손실 특징 융합 동적 다중작업 학습

VisNet은 현재 사람 재식별 분야에서 가장 큰 과제 중 하나인 “정확도와 연산 효율성 사이의 트레이드오프”를 해결하려는 시도로 눈에 띈다. 첫 번째 핵심 기여는 ResNet‑50의 네 단계(feature map)들을 순차적으로 결합하면서도 별도의 병렬 브랜치를 도입하지 않은 점이다. 이는 기존의 멀티‑스케일 접근법이 흔히 겪는 파라미터 폭증과 메모리 사용량 증가 문제를 크게 완화한다. 자동 주의(attention) 모듈이 각 스케일별 특징에 가중치를 부여함으로써, 저해상도에서 추출된 전역적인 형태 정보와 고해상도에서 얻어지는 세

Computer Vision Computer Science Learning
대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

대화형 언어 모델의 협업 능력 향상: 강화 학습을 통한 최적화

이 논문은 대규모 언어 모델(LLMs)의 협업 능력을 향상시키기 위해 강화 학습을 통합한 새로운 프레임워크를 제시합니다. 이 프레임워크는 다중 에이전트 환경에서 전역적인 성능 최적화에 어려움을 겪는 LLMs의 한계를 극복하려고 합니다. 논문은 협업을 분산 부분可观测马尔可夫决策过程(Dec POMDP)的形式化,并采用集中训练与分散执行(CTDE)。这种方法通过引入组相对策略优化(GRPO),在训练过程中利用全局信号来共同优化代理策略,同时简化联合奖励以平衡任务质量、速度和协调成本。实验结果表明,在协作写作和编码基准测试中,该框架比单代理基线提高了3倍的任务处理速

Learning
다중모달 공간 시간 지식으로 구현하는 이동성 예측 및 위치 추천

다중모달 공간 시간 지식으로 구현하는 이동성 예측 및 위치 추천

본 논문은 인간 이동성 예측을 위한 위치 추천 시스템에 다중모달 정보를 효과적으로 통합하려는 시도로, 기존 연구가 안고 있던 두 가지 주요 한계를 명확히 짚고 있다. 첫 번째는 단일 모달(예: GPS 로그, 소셜 미디어 텍스트 등)만을 이용할 경우 데이터 희소성 및 편향 문제에 직면한다는 점이다. 두 번째는 다중 모달을 활용하더라도 정적 이미지나 텍스트와 같은 표현이 공간‑시간적인 변화를 충분히 반영하지 못해, 실제 이동 패턴을 정확히 모델링하지 못한다는 점이다. 이러한 문제점을 해결하기 위해 저자들은 세 가지 핵심 기법을 제안한다

Learning
심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

심장기능 진단을 위한 딥러닝 기반의 심방 제진분수 추정

본 논문은 심장기능 진단에 중요한 역할을 하는 LVEF를 추정하기 위해 다양한 딥러닝 아키텍처의 성능을 평가하고 있습니다. 초음파心动图作为一种常用的临床工具,用于评估心脏功能,但手动分析存在时间成本高和观察者间变异性大的问题。深度学习方法的引入为这个问题提供了一个有潜力的解决方案。本研究中,作者探讨了三种不同的深度学习架构:3D Inception、双流模型以及CNN RNN模型,并对这些模型进行了系统性的评估以确定最佳配置。实验结果表明,经过修改后的3D Inception架构表现最优,其均方根误差(RMSE)为6.79%。此外,研究还发现较小且简单的模型在泛化能力上优于复杂

Model Learning
시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

이 논문은 현대 의료 인공지능이 직면한 두 가지 핵심 문제—데이터 부족과 블랙박스 현상—에 대한 혁신적인 해결책을 제시한다. 먼저, ‘가짜 색채(pseudo‑colouring)’라는 개념은 원래 인간 전문가가 ECG를 시각적으로 해석할 때 중요한 시간적 특징, 예컨대 QT 간격을 색상으로 강조함으로써 인지 부하를 낮추는 방법으로 알려져 있다. 이를 디지털 이미지에 그대로 적용하면, 신경망이 원시 전압 파형 대신 색상 채널을 통해 의미 있는 정보를 직접 받아들일 수 있다. 색상은 3차원(RGB) 공간에서 서로 다른 시간 구간을 구분하

Network Data Learning
인간과 AI가 함께 성장하는 교육 혁신 양방향 정렬의 미래

인간과 AI가 함께 성장하는 교육 혁신 양방향 정렬의 미래

본 논문은 인공지능이 교육 현장에 미치는 변화를 단순한 기술 도입 수준을 넘어 ‘양방향 정렬(bidirectional alignment)’이라는 새로운 프레임워크로 재구성한다. 전통적인 AI 윤리 논의는 주로 인간 가치와 목표를 알고리즘에 내재시키는 일방향적 접근에 머물렀다. 그러나 교육은 학습자와 교사, 제도 전체가 지속적으로 상호작용하고 피드백을 주고받는 복합 시스템이다. 따라서 AI가 제공하는 맞춤형 학습 경로, 자동 채점, 학습 분석 도구는 교사의 전문성·판단을 보완하는 동시에 교사와 학생이 AI의 작동 원리와 한계를 이해하

Learning
기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

기억과 일반화 균형을 위한 레트로프롬프트 지식 기반 검색 프롬프트 학습

본 논문은 사전 학습된 대형 모델(Pre‑trained Foundation Models, 이하 PFM)이 멀티모달 학습에서 차지하는 전략적 위치를 재조명한다. 기존의 “pre‑train, prompt, predict” 흐름은 파라미터를 직접 업데이트하는 전통적인 미세조정 방식과 달리, 프롬프트 토큰을 삽입하거나 템플릿을 설계함으로써 모델 자체는 고정된 채 외부 입력만으로 작업을 수행하도록 만든다. 이러한 접근은 파라미터 효율성을 크게 높였지만, 여전히 “기억 중심”의 일반화 한계에 직면한다. 구체적으로, 제한된 라벨 데이터만으로 프

Model Learning
비접촉 영상과 주변 센서의 분해형 시공간 정렬 DETACH 프레임워크

비접촉 영상과 주변 센서의 분해형 시공간 정렬 DETACH 프레임워크

이 논문은 인간 행동 인식을 위한 멀티모달 정렬 연구에서 새로운 패러다임을 제시한다. 기존 연구들은 주로 착용형 센서와 자기시점(egocentric) 영상 사이의 전역 정렬(Global Alignment)에 의존해 왔으며, 이는 전체 시퀀스를 하나의 고차원 벡터로 압축해 두 모달리티를 매칭한다. 그러나 이러한 접근은 두 가지 근본적인 한계에 봉착한다. 첫째, 행동의 미세한 움직임이나 부분적인 변화를 포착하기 위한 지역적 디테일이 손실된다. 예를 들어, 손목의 미세한 회전이나 물체와의 접촉 순간은 전체 시퀀스 평균화 과정에서 희석된다

Learning
대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

대조 비전‑언어 모델 기반 보상 함수 학습에서 단순 트리플렛 손실이 최첨단을 앞선다

이 논문은 최근 급부상하고 있는 대조적 비전‑언어 모델(VLM)을 보상 함수 학습에 적용하는 연구 흐름을 비판적으로 재조명한다. 기존 연구들은 VLM을 활용해 인간 라벨링 없이도 로봇 제어나 강화학습 환경에서 사용할 수 있는 풍부한 보상 신호를 생성한다는 점에서 큰 기대를 모았다. 그러나 이러한 연구들은 서로 다른 사전학습 데이터셋(예: CLIP, ALIGN), 서로 다른 네트워크 아키텍처(ResNet, ViT), 그리고 서로 다른 파인튜닝 프로토콜을 사용했기 때문에, 실제로 어느 학습 목표가 성능 향상에 기여했는지를 명확히 파악하

Learning Model
스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

스펙트럼 전송을 통한 딥러닝 파워법칙의 근원과 구조적 조건

이 논문은 최근 딥러닝 커뮤니티에서 화두가 되고 있는 “파워‑법칙 스케일링” 현상을 근본적으로 설명하려는 시도를 담고 있다. 기존 연구들은 실험적으로 파워‑법칙이 나타나는 것을 관찰했지만, 왜 그런 현상이 발생하는지에 대한 이론적 틀은 부족했다. 여기서 제시된 Generalized Resolution‑Shell Dynamics(GRSD) 프레임워크는 학습을 고차원 파라미터 공간의 스펙트럼 에너지 흐름으로 바라보는 새로운 관점을 제공한다. 특히 로그 스케일의 해상도 쉘이라는 개념을 도입해, 서로 다른 주파수 대역 사이의 에너지 전달을

Learning
사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

사회미디어에서의 가짜혐오 감지: 코드믹스 힌디 영어 텍스트 분석

이 논문은 사회 미디어 플랫폼에서 혐오 발언과 거짓 정보의 확산 문제를 다루며, 특히 코드믹스 힌디 영어 텍스트에서 가짜 이야기에 의해 유발된 혐오 발언을 감지하는 Faux Hate 공동 작업을 탐구합니다. 이 연구는 두 가지 주요 하위 작업을 수행하는데, 첫째로 이진 Faux Hate 감지는 거짓과 혐오 발언을 분류하고, 둘째로 대상 및 심각성 예측은 혐오 발언의 목표와 그 정도를 범주화합니다. 연구팀이 개발한 시스템은 고급 자연어 처리 기술과 도메인 특异性预训练相结合,旨在提高这两项任务的性能。该系统在比赛中取得了有竞争力的结果,证明了

Model Learning
JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

JARVIS: 시각적 이해를 향상시키는 새로운 프레임워크

이 논문은 MLLMs의 시각적 이해력 향상을 위해 JARVIS라는 새로운 프레임워크를 제안한다. 기존 MLLMs는 주로 언어적인 설명을 통해 학습하므로, 이에 따른 한계점이 존재한다. 특히, 언어 기반 감독 신호의 주관성과 불완전함으로 인해 시각적 추론 능력이 제한적이며, 다중모달 지시어 튜닝의 규모가 작아 시각적 세부 사항을 무시하는 경향이 있다. JARVIS는 이러한 문제를 해결하기 위해 JEPA 학습 패러다임을 MLLMs 훈련 파이프라인에 통합한다. 이 프레임워크는 동결된 시각 기반 모델을 활용하여 예측기를 훈련시키고, 언어

Model Learning
지속가능한 농업을 위한 공간적 변이성 인식 기계학습 프레임워크

지속가능한 농업을 위한 공간적 변이성 인식 기계학습 프레임워크

FTBSC KGML은 농생태계 탄소 순환량을 정확하고 비용 효율적으로 측정하기 위한 혁신적인 머신러닝 프레임워크입니다. 기존 접근법의 한계를 극복하기 위해, 이 연구는 전이 학습과 공간적 변이성을 활용하는 방법론을 제안합니다. 특히, FTBSC KGML은 사전 훈련 및 미세 조정 과정을 통해 각 지역의 특성에 맞춰 모델을 개선하고, 이를 통해 데이터가 부족한 지역에서도 높은 정확도를 유지할 수 있습니다. 이 프레임워크는 원격 측정 GPP, 기후 및 토양 공변량과 같은 다양한 데이터 소스를 활용하여 농생태계의 탄소 순환을 효과적으로

Learning

< 분야별 논문 현황 (Total: 770) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
10

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키