Score: 1

Evolving Diagnostic Agents in a Virtual Clinical Environment

Published: October 28, 2025 | arXiv ID: 2510.24654v1

By: Pengcheng Qiu , Chaoyi Wu , Junwei Liu and more

Potential Business Impact:

Helps computers diagnose sickness like a doctor.

Business Areas:

Natural Language Processing Artificial Intelligence, Data and Analytics, Software

In this paper, we present a framework for training large language models (LLMs) as diagnostic agents with reinforcement learning, enabling them to manage multi-turn diagnostic processes, adaptively select examinations, and commit to final diagnoses. Unlike instruction-tuned models trained on static case summaries, our method acquires diagnostic strategies through interactive exploration and outcome-based feedback. Our contributions are fourfold: (i) We present DiagGym, a diagnostics world model trained with electronic health records that emits examination outcomes conditioned on patient history and recommended examination, serving as a virtual clinical environment for realistic diagnosis training and evaluation; (ii) We train DiagAgent via end-to-end, multi-turn reinforcement learning to learn diagnostic policies that optimize both information yield and diagnostic accuracy; (iii) We introduce DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated examination recommendations and 99 cases annotated with 973 physician-written rubrics on diagnosis process; (iv) we demonstrate superior performance across diverse diagnostic settings. DiagAgent significantly outperforms 10 state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34% higher diagnostic accuracy and 44.03% improvement in examination recommendation hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic accuracy and 23.09% boost in examination recommendation F1 score. In rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by 7.1% in weighted rubric score. These findings indicate that learning policies in interactive clinical environments confers dynamic and clinically meaningful diagnostic management abilities unattainable through passive training alone.

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Computation and Language

Helps doctors find sickness faster by asking questions.

16 Jun 2025 0

90%

Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning

Artificial Intelligence

Helps AI doctors ask better questions to diagnose sickness.

24 Feb 2025 0

89%

CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment

Artificial Intelligence

Tests AI doctors on real patient journeys.

11 Dec 2025 1

View PDF Login to Bookmark

Country of Origin

🇨🇳 China

Page Count

43 pages

Evolving Diagnostic Agents in a Virtual Clinical Environment

Helps computers diagnose sickness like a doctor.

Technical Abstract

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning

CP-Env: Evaluating Large Language Models on Clinical Pathways in a Controllable Hospital Environment