Score: 1

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Published: January 8, 2026 | arXiv ID: 2601.04582v1

By: Mizanur Rahman , Mohammed Saidul Islam , Md Tahmid Rahman Laskar and more

Potential Business Impact:

Makes computer charts better from text.

Business Areas:

Image Recognition Data and Analytics, Software

Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.

T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation

Artificial Intelligence

Helps computers judge AI art quality better.

23 May 2025 2

89%

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

CV and Pattern Recognition

Lets computers use any image tool to solve problems.

3 Dec 2025 2

88%

VisPlay: Self-Evolving Vision-Language Models from Images

CV and Pattern Recognition

Teaches computers to learn by asking themselves questions.

19 Nov 2025 1

View PDF Login to Bookmark

Country of Origin

🇨🇦 Canada

Repos / Data Links

github.com

Page Count

16 pages

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

Makes computer charts better from text.

Technical Abstract

T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

VisPlay: Self-Evolving Vision-Language Models from Images