Score: 0

Multimodal Video Emotion Recognition with Reliable Reasoning Priors

Published: July 29, 2025 | arXiv ID: 2508.03722v1

By: Zhepeng Wang , Yingjian Zhu , Guanghao Dong and more

Potential Business Impact:

Helps computers understand feelings better.

This study investigates the integration of trustworthy prior reasoning knowledge from MLLMs into multimodal emotion recognition. We employ Gemini to generate fine-grained, modality-separable reasoning traces, which are injected as priors during the fusion stage to enrich cross-modal interactions. To mitigate the pronounced class-imbalance in multimodal emotion recognition, we introduce Balanced Dual-Contrastive Learning, a loss formulation that jointly balances inter-class and intra-class distributions. Applied to the MER2024 benchmark, our prior-enhanced framework yields substantial performance gains, demonstrating that the reliability of MLLM-derived reasoning can be synergistically combined with the domain adaptability of lightweight fusion networks for robust, scalable emotion recognition.

Beyond Emotion Recognition: A Multi-Turn Multimodal Emotion Understanding and Reasoning Benchmark

CV and Pattern Recognition

Helps computers understand feelings and why.

23 Aug 2025 2

90%

Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning

Multimedia

Helps computers understand emotions better from faces and voices.

26 Jan 2026 0

90%

ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

CV and Pattern Recognition

Helps computers understand your feelings from faces, voices, words.

8 Aug 2025 0

View PDF Login to Bookmark

Country of Origin

🇲🇴 Macao

Page Count

12 pages

Multimodal Video Emotion Recognition with Reliable Reasoning Priors

Helps computers understand feelings better.

Technical Abstract

Beyond Emotion Recognition: A Multi-Turn Multimodal Emotion Understanding and Reasoning Benchmark

Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning

ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge