Score: 0

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization

Published: January 12, 2026 | arXiv ID: 2601.07208v1

By: Yang Zhao , Hepeng Wang , Xiao Ding and more

Potential Business Impact:

Helps AI balance different goals when writing.

Business Areas:

A/B Testing Data and Analytics

Group-Relative Policy Optimization (GRPO) has emerged as an efficient paradigm for aligning Large Language Models (LLMs), yet its efficacy is primarily confined to domains with verifiable ground truths. Extending GRPO to open-domain settings remains a critical challenge, as unconstrained generation entails multi-faceted and often conflicting objectives - such as creativity versus factuality - where rigid, static reward scalarization is inherently suboptimal. To address this, we propose MAESTRO (Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization), which introduces a meta-cognitive orchestration layer that treats reward scalarization as a dynamic latent policy, leveraging the model's terminal hidden states as a semantic bottleneck to perceive task-specific priorities. We formulate this as a contextual bandit problem within a bi-level optimization framework, where a lightweight Conductor network co-evolves with the policy by utilizing group-relative advantages as a meta-reward signal. Across seven benchmarks, MAESTRO consistently outperforms single-reward and static multi-objective baselines, while preserving the efficiency advantages of GRPO, and in some settings even reducing redundant generation.

MAESTRO: Multi-Agent Environment Shaping through Task and Reward Optimization

Machine Learning (CS)

Teaches AI to control traffic better using smart lessons.

24 Nov 2025 1

90%

Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation

Machine Learning (CS)

Groups similar robot tasks for faster learning.

16 Nov 2025 2

89%

Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs

Artificial Intelligence

Helps AI teams solve harder problems better.

8 Nov 2025 1

View PDF Login to Bookmark

Country of Origin

🇨🇳 China

Page Count

17 pages

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization

Helps AI balance different goals when writing.

Technical Abstract

MAESTRO: Multi-Agent Environment Shaping through Task and Reward Optimization

Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation

Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs