Computer Vision and Pattern Recognition

SHOVIR: A Benchmark for Evaluating Vision Shortcut Learning in Radiology Report Generation

SHOVIR: A Benchmark for Evaluating Vision Shor...

Computer Vision and Pattern Recognition

Filippo Ruffini

15 views

Steering Optimisation Trajectories in Diffusion Representation Learning

Steering Optimisation Trajectories in Diffusio...

Computer Vision and Pattern Recognition

librarian

27 views

Enhancing Brain MRI Anomaly Detection and Reasoning with ROI Rethink and Synthetic Data

Enhancing Brain MRI Anomaly Detection and Reas...

Computer Vision and Pattern Recognition

librarian

54 views

PhyGround: Benchmarking Physical Reasoning in Generative World Models

PhyGround: Benchmarking Physical Reasoning in ...

Computer Vision and Pattern Recognition

librarian

98 views

Image Generators are Generalist Vision Learners

Image Generators are Generalist Vision Learners

Computer Vision and Pattern Recognition

Vision Banana

158 views

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

MM-WebAgent: A Hierarchical Multimodal Web Age...

Computer Vision and Pattern Recognition

librarian

131 views

ActionParty: Multi-Subject Action Binding in Generative Video Games

ActionParty: Multi-Subject Action Binding in G...

Computer Vision and Pattern Recognition

Alexander Pondaven

166 views

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

No Hard Negatives Required: Concept Centric Le...

Computer Vision and Pattern Recognition

Hai Pham*

167 views

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Do VLMs Need Vision Transformers? Evaluating S...

Computer Vision and Pattern Recognition

librarian

171 views

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

SAVeS: Steering Safety Judgments in Vision-Lan...

Computer Vision and Pattern Recognition

librarian

159 views

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen: Semantically Grounded Part-Level...

Computer Vision and Pattern Recognition

librarian

178 views

Near-perfect photo-ID of the Hula painted frog with zero-shot deep local-feature matching

Near-perfect photo-ID of the Hula painted frog...

Computer Vision and Pattern Recognition

yoavram

265 views

Multilayer Graph Approach to Deep Subspace Clustering

Multilayer Graph Approach to Deep Subspace Clu...

Computer Vision and Pattern Recognition

lovro-sindicic

245 views

Label-independent hyperparameter-free self-supervised single-view deep subspace clustering

Label-independent hyperparameter-free self-sup...

Computer Vision and Pattern Recognition

lovro-sindicic

249 views

PersonaLive! Expressive Portrait Image Animation for Live Streaming

PersonaLive! Expressive Portrait Image Animati...

Computer Vision and Pattern Recognition

Grisha Samokhin

259 views

Mull-Tokens: Modality-Agnostic Latent Thinking

Mull-Tokens: Modality-Agnostic Latent Thinking

Computer Vision and Pattern Recognition

librarian

284 views

Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection

Linear Gaussian Bounding Box Representation an...

Computer Vision and Pattern Recognition

rahulraj Kk

272 views

Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer
Memory

Point3R: Streaming 3D Reconstruction with Expl...

Computer Vision and Pattern Recognition

librarian

567 views

FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation

FADRM: Fast and Accurate Data Residual Matchin...

Computer Vision and Pattern Recognition

librarian

523 views

HalluSegBench: Counterfactual Visual Reasoning for Segmentation
Hallucination Evaluation

HalluSegBench: Counterfactual Visual Reasoning...

Computer Vision and Pattern Recognition

librarian

605 views

Whole-Body Conditioned Egocentric Video Prediction

Whole-Body Conditioned Egocentric Video Prediction

Computer Vision and Pattern Recognition

librarian

605 views

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven
Thinking and Visual Drawing

Reinforcing Spatial Reasoning in Vision-Langua...

Computer Vision and Pattern Recognition

librarian

667 views

Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over
Videos

Outside Knowledge Conversational Video (OKCV) ...

Computer Vision and Pattern Recognition

librarian

552 views

Decoupling the Image Perception and Multimodal Reasoning for Reasoning
Segmentation with Digital Twin Representations

Decoupling the Image Perception and Multimodal...

Computer Vision and Pattern Recognition

librarian

692 views

Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via
Spatial Reasoning

Direct Numerical Layout Generation for 3D Indo...

Computer Vision and Pattern Recognition

librarian

729 views

Refer to Anything with Vision-Language Prompts

Refer to Anything with Vision-Language Prompts

Computer Vision and Pattern Recognition

Shengcao Cao

715 views

Thinking with Generated Images

Thinking with Generated Images

Computer Vision and Pattern Recognition

librarian

678 views

Let Androids Dream of Electric Sheep: A Human-like Image Implication
Understanding and Reasoning Framework

Let Androids Dream of Electric Sheep: A Human-...

Computer Vision and Pattern Recognition

Anastasia Kokkanen

889 views

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

Delving into RL for Image Generation with CoT:...

Computer Vision and Pattern Recognition

librarian

673 views

Let Androids Dream of Electric Sheep: A Human-like Image Implication
Understanding and Reasoning Framework

Let Androids Dream of Electric Sheep: A Human-...

Computer Vision and Pattern Recognition

librarian

686 views

SpatialScore: Towards Unified Evaluation for Multimodal Spatial
Understanding

SpatialScore: Towards Unified Evaluation for M...

Computer Vision and Pattern Recognition

Haoning Wu

844 views

VTBench: Evaluating Visual Tokenizers for Autoregressive Image
Generation

VTBench: Evaluating Visual Tokenizers for Auto...

Computer Vision and Pattern Recognition

librarian

751 views

Web analytics