LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

7次阅读

大语言模型智能体的强化学习框架, 首次实现了通用的多智能体的“群体强化”。

在大语言模型(LLM)智能体的各种任务中,已有大量研究表明在各领域下的多智能体工作流在未经训练的情况下就能相对单智能体有显著提升。

但是现有的 LLM 智能体训练框架都是针对单智能体的,多智能体的“群体强化”仍是一个亟须解决的问题。

为了解决这一领域的研究痛点,来自 UCSD 和 英特尔 的研究人员,提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个 LLM 一起训练。

LLM 强化学习新框架!UCSD 多智能体训练框架让 LLM 工具调用能力暴增 5.8 倍

研究背景

大语言模型驱动的多智能体系统在医疗、编程、科研、具身智能等多个领域均能大幅度提升任务表现。

为训练 大模型 智能体,Group Relative Policy Optimization (GRPO) 已被验证为通用的有效强化学习算法。然而,当前所有针对 LLM 的强化学习训练框架,包括 GRPO 算法本身,都局限于单智能体训练的范畴。多智能体间的协作优化,即“群体强化”的学习机制,仍然是一个亟待填补的空白。

GRPO 算法的核心机制是,针对同一个输入(prompt),通过多次采样生成一组候选回答。随后,算法在组内对这些回答进行评估(例如,通过一个奖励模型),并计算它们之间的相对优势。

这种优势计算的有效性与公平性依赖于一个关键假设——组内所有用于比较的候选回答,都必须基于一个完全相同的上下文(即 prompt)生成。

然而,将 GRPO 直接应用于多智能体(multi-agent)多轮(multi-turn)环境中存在一个核心困难。

在多智能体场景下,即使是针对同一个初始问题,不同智能体在不同轮次接收到的 prompt 差异显著。

例如(如图所示),一个负责编程的智能体,其在第二轮的 prompt 不仅包含原始问题,还可能融合了第一轮中自己生成的代码以及其他智能体生成的单元测试。

LLM 强化学习新框架!UCSD 多智能体训练框架让 LLM 工具调用能力暴增 5.8 倍

因此,如果在 MA 环境中仍然简单地将同一个初始问题产生的所有(跨轮次、跨智能体的)回答视为一个“group”来进行优势计算,这就直接违反了 GRPO 所要求的“共同 prompt”的核心假设。

这导致组内的优势计算基准不统一,使得计算结果不再公平或有效。

所以核心问题就是,如何既保证每个组内有一定批次量的回答,又能保证优势计算的公平。

星耀云
版权声明:本站原创文章,由 星耀云 2025-12-16发表,共计919字。
转载说明:转载本网站任何内容,请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。
text=ZqhQzanResources