Score: 3

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Published: October 16, 2025 | arXiv ID: 2510.14528v2

By: Cheng Cui , Ting Sun , Suyin Liang and more

BigTech Affiliations: Baidu

Potential Business Impact:

Reads any document, even complex ones, fast.

Business Areas:

Image Recognition Data and Analytics, Software

In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios. Code is available at https://github.com/PaddlePaddle/PaddleOCR .

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

CV and Pattern Recognition

Reads and understands any document, fast.

16 Oct 2025 3

94%

PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

CV and Pattern Recognition

Reads documents and recognizes seals better.

29 Jan 2026 4

89%

PaddleOCR 3.0 Technical Report

CV and Pattern Recognition

Reads text in pictures and understands documents.

8 Jul 2025 2

View PDF Login to Bookmark

Country of Origin

🇨🇳 China

Repos / Data Links

github.com github.com github.com github.com github.com github.com github.com github.com github.com github.com github.com github.com

Page Count

71 pages

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Reads any document, even complex ones, fast.

Technical Abstract

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

PaddleOCR 3.0 Technical Report