Score: 0

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Published: December 19, 2025 | arXiv ID: 2512.17532v1

By: Jiaqi Tang , Jianmin Chen , Wei Wei and more

Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.

Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams

CV and Pattern Recognition

Helps computers understand messy science pictures.

23 Aug 2025 1

89%

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Machine Learning (CS)

Teaches computers to see and think better.

8 Jun 2025 2

89%

ViSS-R1: Self-Supervised Reinforcement Video Reasoning

CV and Pattern Recognition

Makes computers understand videos by watching them closely.

17 Nov 2025 0

View PDF Login to Bookmark

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Technical Abstract

Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

ViSS-R1: Self-Supervised Reinforcement Video Reasoning