Score: 0

Impugan: Learning Conditional Generative Models for Robust Data Imputation

Published: December 5, 2025 | arXiv ID: 2512.05950v1

By: Zalish Mahmud, Anantaa Kotal, Aritran Piplai

Incomplete data are common in real-world applications. Sensors fail, records are inconsistent, and datasets collected from different sources often differ in scale, sampling rate, and quality. These differences create missing values that make it difficult to combine data and build reliable models. Standard imputation methods such as regression models, expectation-maximization, and multiple imputation rely on strong assumptions about linearity and independence. These assumptions rarely hold for complex or heterogeneous data, which can lead to biased or over-smoothed estimates. We propose Impugan, a conditional Generative Adversarial Network (cGAN) for imputing missing values and integrating heterogeneous datasets. The model is trained on complete samples to learn how missing variables depend on observed ones. During inference, the generator reconstructs missing entries from available features, and the discriminator enforces realism by distinguishing true from imputed data. This adversarial process allows Impugan to capture nonlinear and multimodal relationships that conventional methods cannot represent. In experiments on benchmark datasets and a multi-source integration task, Impugan achieves up to 82\% lower Earth Mover's Distance (EMD) and 70\% lower mutual-information deviation (MI) compared to leading baselines. These results show that adversarially trained generative models provide a scalable and principled approach for imputing and merging incomplete, heterogeneous data. Our model is available at: github.com/zalishmahmud/impuganBigData2025

A Generative Imputation Method for Multimodal Alzheimer's Disease Diagnosis

Image and Video Processing

Fixes missing brain scan data for better disease detection.

12 Aug 2025 0

88%

A Unified Framework for Inference with General Missingness Patterns and Machine Learning Imputation

Methodology

Fixes computer guesses when data is missing.

21 Aug 2025 1

87%

IVGAE: Handling Incomplete Heterogeneous Data with a Variational Graph Autoencoder

Machine Learning (CS)

Fixes missing info in computer tables.

27 Nov 2025 1

View PDF Login to Bookmark

Impugan: Learning Conditional Generative Models for Robust Data Imputation

Technical Abstract

A Generative Imputation Method for Multimodal Alzheimer's Disease Diagnosis

A Unified Framework for Inference with General Missingness Patterns and Machine Learning Imputation

IVGAE: Handling Incomplete Heterogeneous Data with a Variational Graph Autoencoder