Score: 0

RedDiffuser: Red Teaming Vision-Language Models for Toxic Continuation via Reinforced Stable Diffusion

Published: March 8, 2025 | arXiv ID: 2503.06223v3

By: Ruofan Wang , Xiang Zheng , Xiaosen Wang and more

Potential Business Impact:

Makes AI say bad things with pictures.

Business Areas:

A/B Testing Data and Analytics

Vision-Language Models (VLMs) are vulnerable to jailbreak attacks, where adversaries bypass safety mechanisms to elicit harmful outputs. In this work, we examine an insidious variant of this threat: toxic continuation. Unlike standard jailbreaks that rely solely on malicious instructions, toxic continuation arises when the model is given a malicious input alongside a partial toxic output, resulting in harmful completions. This vulnerability poses a unique challenge in multimodal settings, where even subtle image variations can disproportionately affect the model's response. To this end, we propose RedDiffuser (RedDiff), the first red teaming framework that uses reinforcement learning to fine-tune diffusion models into generating natural-looking adversarial images that induce toxic continuations. RedDiffuser integrates a greedy search procedure for selecting candidate image prompts with reinforcement fine-tuning that jointly promotes toxic output and semantic coherence. Experiments demonstrate that RedDiffuser significantly increases the toxicity rate in LLaVA outputs by 10.69% and 8.91% on the original and hold-out sets, respectively. It also exhibits strong transferability, increasing toxicity rates on Gemini by 5.1% and on LLaMA-Vision by 26.83%. These findings uncover a cross-modal toxicity amplification vulnerability in current VLM alignment, highlighting the need for robust multimodal red teaming. We will release the RedDiffuser codebase to support future research.

From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model

Computation and Language

Fixes computer mistakes when writing stories.

22 Oct 2025 0

88%

GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models

Cryptography and Security

Finds ways to make AI create bad pictures.

11 Jun 2025 1

88%

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

CV and Pattern Recognition

Makes AI safer from tricky pictures.

2 Apr 2025 4

View PDF Login to Bookmark

Page Count

9 pages

RedDiffuser: Red Teaming Vision-Language Models for Toxic Continuation via Reinforced Stable Diffusion

Makes AI say bad things with pictures.

Technical Abstract

From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model

GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks