Score: 1

VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Visual Backbones

Published: August 6, 2025 | arXiv ID: 2508.04379v1

By: Lefei Shen , Mouxiang Chen , Xu Liu and more

Potential Business Impact:

Helps computers predict future events using pictures.

Recent studies have revealed that vision models pre-trained on images can perform well in time series forecasting by reformulating forecasting as an image reconstruction task, suggesting their potential as universal time series foundation models. However, effective cross-modal transfer from vision to time series remains challenging due to three key discrepancies: (1) data-modality gap between structured, bounded image data and unbounded, heterogeneous time series; (2) multivariate-forecasting gap between standard RGB three-channel-based vision models and the need to model time series with arbitrary numbers of variates; and (3) probabilistic-forecasting gap between the deterministic output formats of most vision models and the requirement for uncertainty-aware probabilistic predictions. To bridge these gaps, we propose VisionTS++, a vision-model-based TSFM that performs continual pre-training on large-scale time series datasets, including 3 innovations: (1) a vision-model-based filtering mechanism to identify high-quality time series data, thereby mitigating modality gap and improving pre-training stability, (2) a colorized multivariate conversion method that transforms multivariate time series into multi-subfigure RGB images, capturing complex inter-variate dependencies; and (3) a multi-quantile forecasting approach using parallel reconstruction heads to generate forecasts of different quantile levels, thus more flexibly approximating arbitrary output distributions without restrictive prior distributional assumptions. Evaluated on both in-distribution and out-of-distribution TSF benchmarks, \model achieves SOTA results, outperforming specialized TSFMs by 6%-44% in MSE reduction and ranking first in 9 out of 12 probabilistic forecasting settings. Our work establishes a new paradigm for cross-modal knowledge transfer, advancing the development of universal TSFMs.

MLLM4TS: Leveraging Vision and Multimodal Language Models for General Time-Series Analysis

Machine Learning (CS)

Helps computers find patterns in data charts.

8 Oct 2025 0

88%

Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers

Machine Learning (CS)

Turns time data into pictures for smarter computers.

10 Jun 2025 4

88%

Re(Visiting) Time Series Foundation Models in Finance

Computational Finance

Teaches computers to predict stock prices better.

23 Nov 2025 2

View PDF Login to Bookmark

Country of Origin

🇨🇳 China

Page Count

21 pages

VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Visual Backbones

Helps computers predict future events using pictures.

Technical Abstract

MLLM4TS: Leveraging Vision and Multimodal Language Models for General Time-Series Analysis

Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers

Re(Visiting) Time Series Foundation Models in Finance