17做网店这个网站做起多少钱,合肥行业网站建设,建设银行青海省分行招聘网站,网站源码小千个人网一句话总结 这篇报告提出 ERNIE 5.0 #xff1a;从零开始统一训练文本、图像、视频、音频的自回归基础模型#xff0c;核心创新是 统一 Next-Group-of-Tokens 目标 模态无关的超稀疏 MoE 路由 弹性训练#xff0c;并配套可扩展的 RL 与训练基础设施#xff0c;最终在多模…一句话总结这篇报告提出ERNIE 5.0从零开始统一训练文本、图像、视频、音频的自回归基础模型核心创新是统一 Next-Group-of-Tokens 目标模态无关的超稀疏 MoE 路由弹性训练并配套可扩展的 RL 与训练基础设施最终在多模态理解与生成上取得均衡且强劲的表现。1. 背景与问题现有多模态模型通常以“文本为中心”多模态生成往往靠外挂式解码器或后期融合。这会导致理解与生成割裂理解强生成弱或反之。模态能力跷跷板加强某一模态会牺牲另一模态。扩展不优雅需要为每个模态设计专用组件和目标。作者的核心目标是让多模态理解与生成都在一个统一自回归范式里完成并且可在不同算力条件下灵活部署。2. 整体架构统一自回归 超稀疏 MoEERNIE 5.0 在模型层面做了三件关键事统一序列化文本、图像、视频、音频都映射到共享 token 序列。统一目标所有模态都用 Next-Group-of-Tokens Prediction 训练。统一路由MoE 路由不依赖模态标签完全由 token 表示决定。图解整体架构示意。文本、视觉、音频 token 统一进入同一自回归骨干MoE 专家池共享路由不区分模态。3. 统一自回归目标Next-Group-of-Tokens传统文本是 Next-Token Prediction而图像/视频/音频是“分组 token 预测”文本标准 NTP辅以 Multi-Token Prediction (MTP)。视觉Next-Frame-and-Scale Prediction (NFSP)。音频Next-Codec Prediction (NCP)。这样所有模态都被纳入统一的 autoregressive 训练目标从根上避免“不同模态训练目标不一致”的问题。4. 模态无关 MoE共享专家、自动分化路由层不看模态只看 token 的表达。结果是专家出现自发的模态专化。不同模态在深层出现更强的语义重叠。图解不同层专家激活分布。可以看到非均匀激活专家在模态上自然分化。图解不同模态 top-25% 激活专家的 IoU 重叠。深层跨模态重叠增强表明语义逐步统一。图解各层专家负载均衡度NE。N E − ∑ i 1 N p i log ⁡ ( p i ) log ⁡ N NE\frac{-\sum_{i1}^{N} p_i \log(p_i)}{\log N}NElogN−∑i1N​pi​log(pi​)​NE 越高说明越均匀。5. 弹性训练一次预训练得到多种规模传统“训练后压缩”代价高。作者提出Elastic Training一次训练得到多尺寸子模型。弹性维度Depth随机跳层。Width随机减少专家数量。Sparsity随机降低路由 top-k kk。图解弹性训练框架三条轴同时采样形成 Once-For-All 超网络。关键结论仅激活 53.7% 参数、总参数 35.8% 时性能仍接近满模。top-k kk降到 25% 时解码速度提升超过 15%。图解视觉理解与生成统一架构理解走双路径表征生成走 NFSP。6. 视觉与音频理解 生成统一建模6.1 视觉理解CNN ViT 双路径融合再做 Attention Patch Merger。生成NFSP图像是单帧视频多尺度递进生成。6.2 音频理解残差向量量化 (RVQ)多层代码 embedding 相加。生成NCP逐层预测 codec token。图解音频理解与生成架构。理解走多层残差嵌入加和生成走 NCP 分层预测。7. 预训练与基础设施为支撑万亿级超稀疏 MoE需要系统级优化混合并行TP PP EP ZeRO Context Parallel。FP8 混精度显著降低显存峰值。FlashMask对异构注意力掩码加速。结果训练在稳定性与吞吐上兼顾支持多模态统一训练。8. Post-TrainingSFT 统一多模态 RLRL 训练对 MoE 多模态极其不稳定作者提出Unbiased Replay Buffer (U-RB)避免长尾 rollout 阻塞。MISC多粒度重要性裁剪避免熵崩塌。WPSM对“已学会样本”做掩码强化难题学习。AHRL难题注入 hint让 RL 从“提示”过渡到自探索。图解U-RB 机制保持数据顺序并避免长尾拖慢训练。图解MISC 稳定 RL 训练避免早期熵崩塌。图解AHRL 引入“思考骨架”逐步降低提示比率提升难题学习效率。9. 实验结果要点跨模态全面文本在知识、推理、代码、指令跟随等任务上与顶尖模型接近或领先。视觉在 VQA、文档理解、推理、视频理解等多类任务保持强竞争力。音频ASR、语音对话、音频理解、TTS 均表现稳定。核心结论统一训练没有牺牲单模态能力反而在多模态融合和一致性上更强。10. 结论与启示ERNIE 5.0 给出一个非常清晰的技术路径统一自回归范式是多模态理解与生成真正融合的关键。模态无关 MoE 路由可以让专家自发形成分工减少人工设计负担。弹性训练是“训练一次、多场景部署”的可行路径。RL 在超大多模态 MoE 上仍是难点但系统化工程 算法改造可行。本文参考自 ERNIE 5.0 Technical Report