Cs-Cv

MATTER: Multiscale Attention for Registration Error Regression

Computer Vision 6 JAN, 2026

MATTER: Multiscale Attention for Registration Error Regression

By Shipeng Liu

Synthetic Data Guided Feature Selection for Robust Activity Recognition in Older Adults

Computer Vision 6 JAN, 2026

Synthetic Data Guided Feature Selection for Robust Activity Recognition in Older Adults

By Shuhao Que

Learning a distance measure from the information-estimation geometry of data

Eess Sp 6 JAN, 2026

Learning a distance measure from the information-estimation geometry of data

By Guy Ohayon

Inverse problems with diffusion models: MAP estimation via mode-seeking loss

Machine Learning 6 JAN, 2026

Inverse problems with diffusion models: MAP estimation via mode-seeking loss

By Sai Bharath Ch

Continual-MEGA: A Large-scale Benchmark for Generalizable Continual Anomaly Detection

Computer Vision 6 JAN, 2026

Continual-MEGA: A Large-scale Benchmark for Generalizable Continual Anomaly Detection

By Geonu Lee

FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion

Artificial Intelligence 6 JAN, 2026

FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion

By Zhuokun Chen

Generalization of Self-Supervised Vision Transformers for Protein Localization Across Microscopy Domains

Computer Vision 6 JAN, 2026

Generalization of Self-Supervised Vision Transformers for Protein Localization Across Microscopy Domains

By Ben Isselmann

CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Vision Transformers

Machine Learning 5 JAN, 2026

CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Vision Transformers

By Boxiang Zhang

Extreme Weather Nowcasting via Local Precipitation Pattern Prediction

Machine Learning 6 JAN, 2026

Extreme Weather Nowcasting via Local Precipitation Pattern Prediction

By Changhoon Song

DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

Artificial Intelligence 6 JAN, 2026

DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

By Sijia Chen

DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding

Computer Vision 6 JAN, 2026

DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding

By Ning Zhang

A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures

Artificial Intelligence 6 JAN, 2026

A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures

By Basile Terver

A Comparative Study of 3D Person Detection: Sensor Modalities and Robustness in Diverse Indoor and Outdoor Environments

Computer Vision 6 JAN, 2026

A Comparative Study of 3D Person Detection: Sensor Modalities and Robustness in Diverse Indoor and Outdoor Environments

By Malaz Tamim

COSMOS: Coherent Supergaussian Modeling with Spatial Priors for Sparse-View 3D Splatting

Graphics 17 JAN, 2025

COSMOS: Coherent Supergaussian Modeling with Spatial Priors for Sparse-View 3D Splatting

By Chaeyoung Jeong

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Artificial Intelligence 6 JAN, 2026

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

By Chang Zou

Predicting Camera Pose from Perspective Descriptions for Spatial Reasoning

Computer Vision 6 JAN, 2026

Predicting Camera Pose from Perspective Descriptions for Spatial Reasoning

By Xuejun Zhang

Generative Modeling via Drifting

Machine Learning 6 JAN, 2026

Generative Modeling via Drifting

By Mingyang Deng

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Computer Vision 6 JAN, 2026

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

By Hongzhou Zhu

Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation

Computer Vision 6 JAN, 2026

Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation

By Haichao Jiang

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Artificial Intelligence 19 JAN, 2026

Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

By Zihang Wang

Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering

Computer Vision 14 JAN, 2026

Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering

By Jongha Kim

CARLA2Real: a tool for reducing the sim2real appearance gap in CARLA simulator

Computer Vision 23 JAN, 2025

CARLA2Real: a tool for reducing the sim2real appearance gap in CARLA simulator

By Stefanos Pasios

Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction

Computer Vision 6 JAN, 2026

Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction

By Bo Du

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Software Engineering 2 JAN, 2026

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

By Shanchao Liang