Score: 0

An Intelligent AI glasses System with Multi-Agent Architecture for Real-Time Voice Processing and Task Execution

Published: January 9, 2026 | arXiv ID: 2601.06235v1

By: Sheng-Kai Chen , Jyh-Horng Wu , Ching-Yao Lin and more

This paper presents an AI glasses system that integrates real-time voice processing, artificial intelligence(AI) agents, and cross-network streaming capabilities. The system employs dual-agent architecture where Agent 01 handles Automatic Speech Recognition (ASR) and Agent 02 manages AI processing through local Large Language Models (LLMs), Model Context Protocol (MCP) tools, and Retrieval-Augmented Generation (RAG). The system supports real-time RTSP streaming for voice and video data transmission, eye tracking data collection, and remote task execution through RabbitMQ messaging. Implementation demonstrates successful voice command processing with multilingual support and cross-platform task execution capabilities.

Multi-Channel Differential ASR for Robust Wearer Speech Recognition on Smart Glasses

Audio and Speech Processing

Clears background noise for better voice commands.

17 Sep 2025 1

87%

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

Audio and Speech Processing

Lets you talk to AI while it thinks.

17 Oct 2025 1

87%

AR Secretary Agent: Real-time Memory Augmentation via LLM-powered Augmented Reality Glasses

Human-Computer Interaction

Helps you remember people and talks easily.

17 May 2025 0

View PDF Login to Bookmark

An Intelligent AI glasses System with Multi-Agent Architecture for Real-Time Voice Processing and Task Execution

Technical Abstract

Multi-Channel Differential ASR for Robust Wearer Speech Recognition on Smart Glasses

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

AR Secretary Agent: Real-time Memory Augmentation via LLM-powered Augmented Reality Glasses