Score: 0

QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding

Published: January 26, 2026 | arXiv ID: 2601.18195v1

By: Linhan Cao , Wei Sun , Weixia Zhang and more

Potential Business Impact:

Helps computers judge picture quality without training.

Business Areas:

Image Recognition Data and Analytics, Software

Visual quality assessment (VQA) is increasingly shifting from scalar score prediction toward interpretable quality understanding -- a paradigm that demands \textit{fine-grained spatiotemporal perception} and \textit{auxiliary contextual information}. Current approaches rely on supervised fine-tuning or reinforcement learning on curated instruction datasets, which involve labor-intensive annotation and are prone to dataset-specific biases. To address these challenges, we propose \textbf{QualiRAG}, a \textit{training-free} \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration \textbf{(RAG)} framework that systematically leverages the latent perceptual knowledge of large multimodal models (LMMs) for visual quality perception. Unlike conventional RAG that retrieves from static corpora, QualiRAG dynamically generates auxiliary knowledge by decomposing questions into structured requests and constructing four complementary knowledge sources: \textit{visual metadata}, \textit{subject localization}, \textit{global quality summaries}, and \textit{local quality descriptions}, followed by relevance-aware retrieval for evidence-grounded reasoning. Extensive experiments show that QualiRAG achieves substantial improvements over open-source general-purpose LMMs and VQA-finetuned LMMs on visual quality understanding tasks, and delivers competitive performance on visual quality comparison tasks, demonstrating robust quality assessment capabilities without any task-specific training. The code will be publicly available at https://github.com/clh124/QualiRAG.

FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation

CV and Pattern Recognition

Makes AI understand videos and answer questions faster.

4 Jan 2026 1

93%

Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation

CV and Pattern Recognition

Makes computers judge picture quality without training.

13 Jan 2026 1

93%

Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries

Computation and Language

Helps computers use pictures to answer questions.

23 Feb 2025 2

View PDF Login to Bookmark

Page Count

16 pages

QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding

Helps computers judge picture quality without training.

Technical Abstract

FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation

Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation

Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries