Score: 0

Cross-Domain Malware Detection via Probability-Level Fusion of Lightweight Gradient Boosting Models

Published: August 30, 2025 | arXiv ID: 2509.00476v1

By: Omar Khalid Ali Mohamed

Potential Business Impact:

Finds hidden computer viruses better and faster.

Business Areas:

A/B Testing Data and Analytics

The escalating sophistication of malware necessitates robust detection mechanisms that generalize across diverse data sources. Traditional single-dataset models struggle with cross-domain generalization and often incur high computational costs. This paper presents a novel, lightweight framework for malware detection that employs probability-level fusion across three distinct datasets: EMBER (static features), API Call Sequences (behavioral features), and CIC Obfuscated Memory (memory patterns). Our method trains individual LightGBM classifiers on each dataset, selects top predictive features to ensure efficiency, and fuses their prediction probabilities using optimized weights determined via grid search. Extensive experiments demonstrate that our fusion approach achieves a macro F1-score of 0.823 on a cross-domain validation set, significantly outperforming individual models and providing superior generalization. The framework maintains low computational overhead, making it suitable for real-time deployment, and all code and data are provided for full reproducibility.

Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset

Cryptography and Security

Finds computer viruses faster and more reliably.

22 Jul 2025 0

87%

Enhancing Decision-Making in Windows PE Malware Classification During Dataset Shifts with Uncertainty Estimation

Cryptography and Security

Makes computer virus checkers more trustworthy.

20 Dec 2025 1

87%

Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models

Machine Learning (CS)

Finds bad computer programs faster and better.

4 Mar 2025 0

View PDF Login to Bookmark

Country of Origin

🇸🇦 Saudi Arabia

Page Count

5 pages

Cross-Domain Malware Detection via Probability-Level Fusion of Lightweight Gradient Boosting Models

Finds hidden computer viruses better and faster.

Technical Abstract

Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset

Enhancing Decision-Making in Windows PE Malware Classification During Dataset Shifts with Uncertainty Estimation

Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models