手机网站整站下载,上海市人才网官网,wordpress右下角广告,什么是网络科技公司Forge框架:破解Agent RL扩展性不可能三角的创新之路 如何在大规模复杂真实Agent场景中实现可扩展的强化学习训练?MiniMax团队提出的Forge框架给出了令人瞩目的答案。该框架成功突破了系统吞吐量、训练稳定性和Agent灵活性之间的固有矛盾,通过灵活的系统架构、创新…Forge框架:破解Agent RL扩展性不可能三角的创新之路如何在大规模复杂真实Agent场景中实现可扩展的强化学习训练?MiniMax团队提出的Forge框架给出了令人瞩目的答案。该框架成功突破了系统吞吐量、训练稳定性和Agent灵活性之间的固有矛盾,通过灵活的系统架构、创新的算法设计、优化的异步调度和极致的训练推理效率,实现了支持超长上下文(200k tokens)、日均处理百万级样本的大规模RL训练系统。这一突破性工作直接推动了MiniMax M2.5模型的诞生,为工业级Agent RL系统的实际应用开辟了新路径。论文标题: Forge: Scalable Agent RL Framework and Algorithm来源: Hugging Face Blog 链接PS: 整理了LLM、量化投资、机器学习方向的学习资料关注同名公众号 「 AI极客熊 」 即刻免费解锁文章核心研究背景在复杂真实世界的Agent场景中,大规模强化学习训练面临着一个根本性的不可能三角困境:需要在系统吞吐量(System Throughput)、训练稳定性(Training Stability)和Agent灵活性(Agent Flexibility)这三个相互冲突的约束之间寻求平衡。传统的RL范式对Agent复杂性施加了玻璃天花板限制,难以建模动态Context Management、多Agent协作等复杂认知架构。同时,Agent rollout完成时间的极端差异(从秒级到小时级)导致调度死锁,而稀疏奖励和高梯度方差在超长上下文场景(200k tokens)中使得信用分配变得极为困难。这些结构性挑战长期以来阻碍了大规模RL在工业级系统中的应用。研究问题Agent扩展性与框架灵活性限制: 现有框架将Agent视为白盒函数,与trainer共享状态,这种刚性设计难以支持复杂认知架构;TITO(Token-In-Token-Out)架构要求Agent与底层token逻辑深度耦合,在复杂Context Management下维持推理抽象与训练表示的一致性计算成本过高。系统效率与计算冗余: Agent rollout时间极端方差导致调度器在硬件效率和训练稳定性之间面临严峻权衡——严格的FIFO/同步调度遭遇Straggler Effect和Head-of-Line Blocking,而贪婪/FFFO模式虽然最大化吞吐量但会导致严重的数据分布漂移;此外,Agent场景中固有的Prefix Redundancy造成大量计算浪费。算法挑战:信用分配与优化稳定性: Agent任务通常涉及长周期延迟反馈,在200k上下文窗口中为特定token或工具调用分配信用在数学上极为困难;传统RL目标仅关注正确性而忽略wall-clock执行成本,无法激励并行化或高效工具使用。主要贡献创新的三层架构设计: 提出了Agent Side、Middleware Abstraction Layer和Training/Inference Side的解耦架构,通过Gateway Server和Data Pool实现标准化交互协议,支持任意Agent scaffold的训练,成功集成数百种scaffold和数千种不同的工具调用格式。Windowed FIFO混合调度策略: 在严格同步排序和贪婪异步执行之间引入滑动窗口约束,既缓解了Head-of-Line阻塞效应,又防止了训练分布向快速简单样本漂移,有效平衡了系统吞吐量与分布一致性。Prefix Tree Merging加速方案: 将训练过程从线性处理转换为树结构方法,通过合并共享前缀的训练样本,在保证数学等价性的前提下实现40倍训练加速,显著降低内存开销。CISPO算法与复合奖励框架: 采用统一混合域训练策略(Reasoning、General QA和Agent域),提出包含Process Reward、Task Completion Time Reward和Reward-to-go的复合奖励框架,有效解决超长上下文下的信用分配挑战。方法论精要Forge框架的核心方法论围绕系统架构、Agent RL范式、工程优化和可扩展算法四个维度展开,形成了一个完整的解决方案体系。这一方法论不仅解决了单个技术难题,更提供了一个可扩展、可复用的Agent RL基础设施平台。在系统架构设计方面,Forge超越了具体实现,采用通用的中间件设计理念,将Agent的推理逻辑与底层训练基础设施完全解耦。这种设计哲学从根本上改变了传统RL系统的构建方式,不再将训练系统与特定Agent架构绑定,而是提供了一种通用的抽象层。系统由三个核心模块构成:Agent Side负责抽象通用Agent(包括白盒和黑盒架构)及其运行环境,作为纯粹的轨迹生成器。这意味着Agent可以专注于自身的业务逻辑,如Context Management、Reasoning Chains等核心功能,而不需要关心底层的训练和推理机制。Middleware Abstraction Layer作为物理隔离层,包含Gateway Server和Data Pool。Gateway Server作为标准化通信网关处理Agent与LLM之间的完成请求,通过通用标准协议有效隔离了实际底层模型的复杂性。Data Pool作为分布式数据存储异步收集rollout轨迹,充当缓冲区解耦生成和训练,允许用户应用灵活的数据处理和批处理策略以提高训练效率和算法使用。Training and Inference Side管理重型计算,包括Rollout Engine(负责高吞吐量token生成)和Train Engine(消费处理后的token序列更新策略)。Train Engine保持与LLM Engine的同步,确保Agent使用最新的策略分布进行探索。这种完全解耦的设计使得框架能够无缝集成各种Agent,无需对Agent内部进行任何修改,真正实现了一次架构,任意Agent的设计目标。针对白盒Agent的Context Management(CM)问题,Forge提出了创新的解决方案。在长周期Agent任务中,Context Management是实现持续交互和高效信息管理的关键技术。传统方法在长周期任务中遭遇Context Rot挑战——随着交互轮次增加,中间推理步骤和冗余观察的积累产生注意力稀释效应,导致模型即使在绝对上下文窗口限制内操作也会失去对关键信息的关注。这种现象类似于人类在长对话中逐渐失去对早期关键点的记忆,即使在技术记忆容量允许的情况下也会发生。更严重的是,推理-训练不匹配问题:仅在推理时应用Context Management会引入与RL训练数据的严重分布偏移,迫使模型在运行时突然适应意外的上下文转换并处理不熟悉的长上下文结构。这就像一个学生只在实际考试时学习新技巧,而在训练中从未练习过,显然无法获得最佳表现。为此,Forge将CM机制直接集成到RL交互循环中,将Context Management视为驱动状态转换的功能动作。通过CM驱动的状态转换,CM被建模为显式Agent动作,上下文转换自然嵌入环境动力学中,状态从$ S_t到 到到S_{t1}的转换隐式封装了上下文切换逻辑。优化策略 的转换隐式封装了上下文切换逻辑。优化策略的转换隐式封装了上下文切换逻辑。优化策略\pi $使得模型学习内化分布偏移,催生优先考虑状态关键token的鲁棒推理模式。模型在RL生成过程中被训练为预测潜在的上下文管理操作和转换,主动保留任务关键信息同时修剪不相关的上下文噪声。这种方法的核心优势在于,模型在学习过程中就体验到了上下文管理的影响,能够在训练时发展出适应上下文转换的推理策略,而不是在部署时被迫应对陌生的分布偏移。对于黑盒Agent RL,Forge通过Black-box Agent Experiment验证了框架的鲁棒性。在实际应用中,许多用户使用专有或复杂的Agent架构,这些架构对框架而言是完全不透明的黑盒。传统框架通常要求对Agent内部结构有深入了解,这在实际工业场景中往往是不可行的。Forge的创新之处在于完全对Agent内部实现细节保持不可知,Agent只需将请求路由到RL服务Gateway,框架自动处理数据收集和训练。这种非侵入式集成方式使得任何现有的Agent系统都可以无缝接入Forge框架,无需进行任何代码重构或架构调整。在实际RL训练中,Forge无缝支持任意上下文操作(如内存压缩和历史重写)以及任何复杂的内部Agent Loop(如Deep Think、多Agent架构)。这意味着框架能够适应各种Agent设计理念,无论是追求极端上下文压缩的策略,还是采用复杂多Agent协作的架构。通过将训练循环与Agent内部状态解耦,MiniMax M2.5实现了与广泛黑盒Agent的广泛兼容性,从严重依赖Sandbox和Model Context Protocol(MCP)环境的代码中心Agent(例如完全作为黑盒训练OpenCode Agent),到采用激进上下文缩减策略(如Truncate BC)的Agent。实证结果表明,这种方法即使在完全不透明的黑盒系统中也能提供一致稳定的改进,这证明了Forge框架的通用性和鲁棒性。在工程优化方面,Forge提出了多项创新技术,这些优化措施共同构成了一个高效的训练基础设施。Windowed FIFO策略通过在Training Scheduler上施加滑动约束,解决了系统吞吐量与分布一致性之间的冲突。这个问题的核心在于:完全的同步调度虽然保证了数据分布的一致性,但会因为单个慢任务导致整个集群闲置;而完全的异步调度虽然最大化了吞吐量,但会导致训练数据分布严重偏移,因为快速任务会先被处理。Windowed FIFO巧妙地在这两个极端之间找到了平衡点。令生成队列为$ Q[T_0,T_1,…,T_{N-1}], 当前头部索引为 ,当前头部索引为,当前头部索引为i, 训练调度器严格限制从范围 ,训练调度器严格限制从范围,训练调度器严格限制从范围[T_i,T_{iW-1}]获取已完成轨迹。在活动窗口 获取已完成轨迹。在活动窗口获取已完成轨迹。在活动窗口[T_i,T_{iW-1}]内 , 调度器可以立即检索任何已完成轨迹 , 缓解了 H e a d − o f − L i n e 阻塞效应 , 因为窗口内的快速任务无需等待绝对第一个任务完成。关键的是 , 即使索引 内,调度器可以立即检索任何已完成轨迹,缓解了Head-of-Line阻塞效应,因为窗口内的快速任务无需等待绝对第一个任务完成。关键的是,即使索引内,调度器可以立即检索任何已完成轨迹,缓解了Head−of−Line阻塞效应,因为窗口内的快速任务无需等待绝对第一个任务完成。关键的是,即使索引j\gt iW( 窗口外 ) 的任务已完成 , 调度器也被禁止获取它。窗口仅当头部任务被消费时向前滑动 (窗口外)的任务已完成,调度器也被禁止获取它。窗口仅当头部任务被消费时向前滑动(窗口外)的任务已完成,调度器也被禁止获取它。窗口仅当头部任务被消费时向前滑动(i \rightarrow i1), 这种机制有效迫使调度器等待当前窗口内的 拖沓者 ( 复杂的长周期任务 ) , 防止训练分布向队列后部发现的 快速简单 样本漂移。窗口大小 ,这种机制有效迫使调度器等待当前窗口内的拖沓者(复杂的长周期任务),防止训练分布向队列后部发现的快速简单样本漂移。窗口大小,这种机制有效迫使调度器等待当前窗口内的拖沓者(复杂的长周期任务),防止训练分布向队列后部发现的快速简单样本漂移。窗口大小W是一个关键超参数 , 需要根据具体任务特点和硬件配置进行调优 , 通常设置为 是一个关键超参数,需要根据具体任务特点和硬件配置进行调优,通常设置为是一个关键超参数,需要根据具体任务特点和硬件配置进行调优,通常设置为W0.3N $左右,以平衡吞吐量和分布一致性。Prefix Tree Merging方案将训练过程从线性处理转换为树结构方法。在Agent场景中,多个完成可以在样本级别合并为单个前缀树——即使后续响应略有不同或属于不同的采样分支——只要它们共享底层前缀。这种冗余的存在是由于Agent交互的递归性质:多个Agent可能从相同的初始状态出发,经过相似的推理路径,只是在某些决策点产生了分歧。传统训练方法将每个样本视为独立实体,重复计算这些共同前缀,在长上下文场景中造成巨大的TFLOPS浪费。通过利用注意力原语(如Magi Attention),确保逻辑执行与标准前向传播保持一致。这意味着虽然计算方式从线性变为树状,但每个token的注意力计算结果与标准方法完全相同,保证了数学上的等价性。前向传播后,基于元数据解构前缀树以正常计算损失,确保对下游逻辑零影响。通过消除冗余前缀预填充,该解决方案实现了40倍训练加速,显著降低内存开销以支持更长序列或更大批次,同时保证与标准方法的严格数学等价性,对损失计算或指标零影响。这种加速效果在长上下文Agent场景中尤为显著,因为Agent轨迹通常具有较长的共同前缀部分。在推理加速方面,Forge通过三项架构创新优化生成流程:MTP-based Speculative Decoding使用通过Top-K KL损失持续微调的Multi-Token Prediction(MTP)头而非静态草稿模型,确保与演进的RL策略对齐,通过缓解分布偏移维持高接受率和显著加速。传统的投机解码使用静态草稿模型,但随着RL训练的进行,策略分布不断变化,静态草稿模型会逐渐与目标策略失配,导致接受率下降。Forge的创新在于持续微调MTP头,使其始终与当前策略保持对齐,从而维持高接受率。Heterogeneous PD Disaggregation将Prefill和Decode解耦以消除混合MoE调度中的PD干扰,并为每个实例允许独立的并行策略,同时最大化全局吞吐量和优化长周期任务的尾延迟。在混合工作负载场景中,Prefill和Decode有不同的计算特征和调度需求,解耦可以为每个阶段采用最优的调度策略。Global L3 KV Cache Pool通过DFS支持的Global L3 Cache防止多轮Agent RL中的冗余预填充并利用组级rollout最大化前缀缓存命中率,成本感知调度器通过权衡排队延迟与缓存迁移成本动态路由请求,在不过载实例的情况下最大化缓存局部性。这对于多轮Agent对话尤为重要,因为前一轮的上下文往往可以在后续轮次中重用。在可扩展Agent RL算法方面,Forge采用CISPO作为核心算法,专门适配长周期Agent特性。与通常导致域间负迁移或干扰的多阶段强化学习不同,Forge采用统一训练策略,同时在Reasoning、General QA和Agent域混合任务。这种联合训练方法缓解了顺序训练中典型的性能下降,显著增强模型在多样化任务上的泛化能力。多阶段训练的缺陷在于,模型在某个域上训练后,在另一个域上训练时可能会遗忘先前学到的能力(灾难性遗忘),或者不同域的优化目标相互冲突。统一训练通过平衡不同域的样本,避免了这些问题。CISPO目标函数为:$ \mathcal{J}{\text{CISPO}}(\theta) \mathbb{E}{(q,a)\sim\mathcal{D}, {o_i}{i1}^G \sim \pi{\theta_{\text{old}}}(\cdot|q)} \left[ \frac{1}{\sum_{i1}^G |o_i|} \sum_{i1}^G \sum_{t1}^{|o_i|} \mathbf{sg}(\hat{r}{i,t}(\theta)) \hat{A}{i,t} \log \pi_\theta(o_{i,t} \mid q, o_{i,t}) \right] $其中:$ \hat{r}{i,t}(\theta) \text{clip}\left( r{i,t}(\theta), 0, 1 \epsilon_{high}^{IS} \right) $$ \widehat{A}{i,t} \sum{pt}^T (r_p^{\text{speed}} r_p^{\text{perf}}) - B_i $这个目标函数的特点在于使用了stop-gradient($ \mathbf{sg} $)操作来稳定训练,同时通过重要性采样(IS)处理离策略数据。奖励的clipping操作防止了极端奖励值导致的训练不稳定。复合奖励框架旨在解决超长上下文(高达200k)的信用分配挑战,同时确保训练稳定性。Process Reward提供密集反馈,针对中间行为(如惩罚语言混合或特定工具调用错误)而非仅依赖最终结果。在长周期任务中,仅依赖最终结果的稀疏奖励会导致信号传播困难,因为模型很难将最终结果追溯到数千步前的具体决策。Process Reward通过在关键决策点提供即时反馈,大大改善了训练的样本效率。Task Completion Time Reward考虑在Agent场景中存在任务完成的多个轨迹,总持续时间不仅取决于token生成,还取决于特定工具执行和子Agent调用的相关延迟。由于完成时间对实际用户体验至关重要,Forge将相对完成时间作为奖励信号纳入,激励Agent利用并行化从而加速任务执行。这引导模型不仅关注任务是否完成,还关注如何更高效地完成,这在实际应用中至关重要。例如,在代码搜索任务中,模型可以顺序搜索多个代码库,也可以并行搜索,两者都能完成任务,但后者明显更高效。Reward-to-go用于方差减少,标准稀疏奖励在长周期任务中往往导致高梯度方差,Forge采用Reward-to-go公式归一化回报,有效降低梯度方差并提高信用分配精度,稳定优化过程。Reward-to-go将当前时间步之后的所有奖励之和作为该步的回报,而不是使用整个episode的总回报,这样可以更准确地反映每个决策对最终结果的贡献。实验洞察Forge框架的实验验证充分展示了其在真实世界大规模Agent RL场景中的卓越性能。在MiniMax M2.5的构建过程中,Forge RL系统处理了超过十万个不同的真实世界Agent scaffold和环境。在高达200k的上下文长度下,系统维持了百万级样本规模的日均处理吞吐量,实现了持续的奖励收敛和底层模型的真正能力提升。在黑盒Agent实验中,Forge展现了其框架的强大鲁棒性。实验结果表明,通过将训练循环与Agent内部状态完全解耦,MiniMax M2.5实现了与广泛黑盒Agent的广泛兼容性。从严重依赖Sandbox和Model Context Protocol(MCP)环境的代码中心Agent(例如完全作为黑盒训练OpenCode Agent),到采用激进上下文缩减策略(如Truncate BC)的Agent,Forge都提供了一致稳定的改进。这种跨异构scaffold的泛化能力直接解决了传统训练范式无法在不同认知架构间泛化的核心问题。工程优化的效果在实验中得到了充分验证。Prefix Tree Merging方案实现了惊人的40倍训练加速,同时显著降低内存开销以支持更长序列或更大批次。Windowed FIFO策略成功在硬件效率和训练稳定性之间找到了最佳平衡点,既避免了Straggler Effect和Head-of-Line Blocking导致的集群空闲,又防止了数据分布漂移导致的非平稳训练环境和梯度振荡。MTP-based Speculative Decoding通过持续微调的MTP头维持了与演进RL策略的对齐,在高接受率下实现了显著的推理加速。CISPO算法与复合奖励框架的结合在超长上下文场景中表现出色。统一混合域训练策略有效缓解了顺序训练中典型的性能下降,显著增强模型在Reasoning、General QA和Agent等多样化任务上的泛化能力。复合奖励框架通过Process Reward、Task Completion Time Reward和Reward-to-go的协同作用,成功解决了200k上下文窗口中信用分配的数学难题,实现了稳定的优化过程和精确的梯度更新。整体而言,Forge框架成功破解了Agent RL扩展性的不可能三角,在实现突破性RL系统吞吐量的同时确保了在任意Agent scaffold上的鲁棒泛化。通过与稳定的CISPO算法集成这一灵活架构,Forge实现了MiniMax M2.5背后的超大规模训练,这一整体方法克服了先前的约束,提供了高效、真实世界的Agent能力,推进了Intelligence with Everyone的使命。