Score: 0

Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing

Published: April 7, 2025 | arXiv ID: 2504.04784v1

By: Hui Liu , Bin Zou , Suiyun Zhang and more

Potential Business Impact:

Edits pictures with many text commands at once.

Business Areas:

Intrusion Detection Information Technology, Privacy and Security

Instruction-guided image editing enables users to specify modifications using natural language, offering more flexibility and control. Among existing frameworks, Diffusion Transformers (DiTs) outperform U-Net-based diffusion models in scalability and performance. However, while real-world scenarios often require concurrent execution of multiple instructions, step-by-step editing suffers from accumulated errors and degraded quality, and integrating multiple instructions with a single prompt usually results in incomplete edits due to instruction conflicts. We propose Instruction Influence Disentanglement (IID), a novel framework enabling parallel execution of multiple instructions in a single denoising process, designed for DiT-based models. By analyzing self-attention mechanisms in DiTs, we identify distinctive attention patterns in multi-instruction settings and derive instruction-specific attention masks to disentangle each instruction's influence. These masks guide the editing process to ensure localized modifications while preserving consistency in non-edited regions. Extensive experiments on open-source and custom datasets demonstrate that IID reduces diffusion steps while improving fidelity and instruction completion compared to existing baselines. The codes will be publicly released upon the acceptance of the paper.

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

CV and Pattern Recognition

Edits pictures using words, faster and better.

29 Apr 2025 1

88%

X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation

CV and Pattern Recognition

Lets computers create pictures from sounds and videos.

8 Mar 2025 1

88%

EDiT: Efficient Diffusion Transformers with Linear Compressed Attention

CV and Pattern Recognition

Makes AI create better pictures faster.

20 Mar 2025 2

View PDF Login to Bookmark

Page Count

14 pages

Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing

Edits pictures with many text commands at once.

Technical Abstract

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation

EDiT: Efficient Diffusion Transformers with Linear Compressed Attention