Score: 0

A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

Published: July 7, 2025 | arXiv ID: 2507.04699v1

By: Zexi Jia , Chuanwei Huang , Hongyan Fei and more

Potential Business Impact:

Teaches computers to understand pictures better.

Business Areas:

Visual Search Internet Services

Vision-language models (VLMs) often struggle with compositional reasoning due to insufficient high-quality image-text data. To tackle this challenge, we propose a novel block-based diffusion approach that automatically generates counterfactual datasets without manual annotation. Our method utilizes large language models to identify entities and their spatial relationships. It then independently generates image blocks as "puzzle pieces" coherently arranged according to specified compositional rules. This process creates diverse, high-fidelity counterfactual image-text pairs with precisely controlled variations. In addition, we introduce a specialized loss function that differentiates inter-set from intra-set samples, enhancing training efficiency and reducing the need for negative samples. Experiments demonstrate that fine-tuning VLMs with our counterfactual datasets significantly improves visual reasoning performance. Our approach achieves state-of-the-art results across multiple benchmarks while using substantially less training data than existing methods.

CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding

CV and Pattern Recognition

Helps computers imagine "what if" in videos.

25 Nov 2025 1

91%

Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models

Artificial Intelligence

Makes AI understand pictures and facts better.

25 Nov 2025 0

90%

Data Factory with Minimal Human Effort Using VLMs

CV and Pattern Recognition

Makes computers create realistic pictures from words.

7 Oct 2025 0

View PDF Login to Bookmark

Page Count

10 pages

A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets

Teaches computers to understand pictures better.

Technical Abstract

CounterVQA: Evaluating and Improving Counterfactual Reasoning in Vision-Language Models for Video Understanding

Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models

Data Factory with Minimal Human Effort Using VLMs