Score: 0

DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models

Published: June 4, 2025 | arXiv ID: 2506.03933v1

By: Jia Fu , Yongtao Wu , Yihang Chen and more

Potential Business Impact:

Fixes AI mistakes caused by tricky images.

Business Areas:

Image Recognition Data and Analytics, Software

Vision Language Models (VLMs) have shown remarkable capabilities in multimodal understanding, yet their susceptibility to perturbations poses a significant threat to their reliability in real-world applications. Despite often being imperceptible to humans, these perturbations can drastically alter model outputs, leading to erroneous interpretations and decisions. This paper introduces DiffCAP, a novel diffusion-based purification strategy that can effectively neutralize adversarial corruptions in VLMs. We observe that adding minimal noise to an adversarially corrupted image significantly alters its latent embedding with respect to VLMs. Building on this insight, DiffCAP cumulatively injects random Gaussian noise into adversarially perturbed input data. This process continues until the embeddings of two consecutive noisy images reach a predefined similarity threshold, indicating a potential approach to neutralize the adversarial effect. Subsequently, a pretrained diffusion model is employed to denoise the stabilized image, recovering a clean representation suitable for the VLMs to produce an output. Through extensive experiments across six datasets with three VLMs under varying attack strengths in three task scenarios, we show that DiffCAP consistently outperforms existing defense techniques by a substantial margin. Notably, DiffCAP significantly reduces both hyperparameter tuning complexity and the required diffusion time, thereby accelerating the denoising process. Equipped with strong theoretical and empirical support, DiffCAP provides a robust and practical solution for securely deploying VLMs in adversarial environments.

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

CV and Pattern Recognition

Makes AI safer from tricky pictures.

2 Apr 2025 4

90%

CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization

CV and Pattern Recognition

Protects AI from fake images and bad advice.

13 Oct 2025 0

89%

Data Factory with Minimal Human Effort Using VLMs

CV and Pattern Recognition

Makes computers create realistic pictures from words.

7 Oct 2025 0

View PDF Login to Bookmark

Page Count

20 pages

DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models

Fixes AI mistakes caused by tricky images.

Technical Abstract

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization

Data Factory with Minimal Human Effort Using VLMs