Score: 0

Transformer-Driven Multimodal Fusion for Explainable Suspiciousness Estimation in Visual Surveillance

Published: December 10, 2025 | arXiv ID: 2512.09311v1

By: Kuldeep Singh Yadav, Lalan Kumar

Suspiciousness estimation is critical for proactive threat detection and ensuring public safety in complex environments. This work introduces a large-scale annotated dataset, USE50k, along with a computationally efficient vision-based framework for real-time suspiciousness analysis. The USE50k dataset contains 65,500 images captured from diverse and uncontrolled environments, such as airports, railway stations, restaurants, parks, and other public areas, covering a broad spectrum of cues including weapons, fire, crowd density, abnormal facial expressions, and unusual body postures. Building on this dataset, we present DeepUSEvision, a lightweight and modular system integrating three key components, i.e., a Suspicious Object Detector based on an enhanced YOLOv12 architecture, dual Deep Convolutional Neural Networks (DCNN-I and DCNN-II) for facial expression and body-language recognition using image and landmark features, and a transformer-based Discriminator Network that adaptively fuses multimodal outputs to yield an interpretable suspiciousness score. Extensive experiments confirm the superior accuracy, robustness, and interpretability of the proposed framework compared to state-of-the-art approaches. Collectively, the USE50k dataset and the DeepUSEvision framework establish a strong and scalable foundation for intelligent surveillance and real-time risk assessment in safety-critical applications.

Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models

CV and Pattern Recognition

Finds unusual things in videos automatically.

17 Nov 2025 0

88%

A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data

CV and Pattern Recognition

Spots drones using many senses at once.

19 Nov 2025 0

87%

Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System

CV and Pattern Recognition

Helps cars see if drivers are looking away.

15 Nov 2025 1

View PDF Login to Bookmark

Transformer-Driven Multimodal Fusion for Explainable Suspiciousness Estimation in Visual Surveillance

Technical Abstract

Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models

A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data

Cross-View Cross-Modal Unsupervised Domain Adaptation for Driver Monitoring System