网站开发背景和意义,知名外贸网站建设公司,企业网站公众号,金融外贸是做什么的预训练的数据选择 模型影响力驱动#xff08;Influence / Importance-based Selection#xff09; MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models MATES 提出一种动态、模型感知的数据选择策略。与传统静态过滤方法不同#xf…预训练的数据选择模型影响力驱动Influence / Importance-based SelectionMATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence ModelsMATES 提出一种动态、模型感知的数据选择策略。与传统静态过滤方法不同MATES 认为模型在训练不同阶段对各种类型数据的“偏好”实际是不断变化的因此数据选择策略也应随训练进展动态调整。其核心是构建一个“数据影响力模型”。具体流程是在训练过程中定期对模型进行少量探测probe测量不同数据对模型性能的实际影响并将这些影响作为标签训练一个轻量模型预测大规模语料中每条数据的潜在影响力。然后在下一阶段预训练中优先选择预测影响力高的数据。实验覆盖多个规模的语言模型。结果表明相比随机采样或静态规则数据过滤MATES 在多个任务上的平均性能提升显著同时达到相同性能所需要的计算量大约减少一半。该方法证明动态、模型状态驱动的数据选择优于固定、一次性的规则是未来预训练数据管理的方向。质量 多样性平衡Quality–Diversity Joint MethodsHarnessing Diversity for Important Data Selection in Pretraining Large Language Models这篇论文关注一个经典但常被忽视的问题只根据“重要性”如影响力或质量挑选数据很容易导致所选数据在语言风格、知识类型、语义分布上高度集中最终损害模型的泛化能力。作者提出 Quad 方法通过在数据选择中同时优化重要性与多样性来解决这一问题。Quad 首先通过高效的反向 Hessian 计算方法为每条数据估计其对模型的影响力。然后将整个语料按语义表示聚类成多个簇每个簇被视为多臂赌博机问题中的一个“臂”。在选择训练数据时算法不仅根据影响力选取强数据也刻意探索那些被选得较少、但有潜在价值的簇以保证整体的多样性。实验表明Quad 在多个基准任务上超过其他数据选择方法并显著提升模型的零样本能力。这项工作展示多样性在预训练数据选择中与质量同等重要提出了一个可扩展且实际可用的解决方案。QuaDMix: Quality–Diversity Balanced Data Selection for Efficient LLM PretrainingQuaDMix 指出预训练数据选择中的“质量”和“多样性”往往被分开处理实际容易带来不平衡例如高质量数据过于集中于少数领域。为此QuaDMix 构建一个统一的框架将这两个因素纳入一个参数化的采样分布中。方法首先为数据计算多个质量指标例如语言流畅性、复杂度、干净度等同时通过领域分类确定其所属领域。然后构建一个依赖“质量向量 领域标签”的采样函数对每条数据分配采样概率。该函数的参数通过轻量实验优化最终用于完整预训练过程。结果显示与只优化质量或多样性的单一策略不同QuaDMix 的联合策略在多个任务上平均提升超过 7%。该工作证明平衡质量与多样性的统一框架是更高效的数据选择方式。Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection这篇论文对数据选择的传统思路 — “根据评分排序然后取 top-k (最高分数据)” — 发起挑战。作者认为这种方法的问题在于评分通常混合了多个相关的维度 (例如语言质量、知识含量、语义复杂度等)这样 top-scored 数据虽然在整体评分上很高但可能在多个维度上都过于集中导致数据多样性严重欠缺。更糟糕的是这种缺乏多样性的选择有时反而使下游性能下降。为了解决这一问题他们提出 ODiS (Orthogonal Diversity-Aware Selection)。首先对数据进行多维评价至少包括语言质量 (language quality)、知识/事实质量 (knowledge quality)、语义 / 理解难度 (comprehension difficulty) 等多个维度。然后通过PCA将这些维度 “正交” 化 —— 即将不同维度间的相关性移除使得不同方面真正成为彼此独立的特征维度。对每个正交维度训练一个打分器将该维度上的得分 (PCA 投影得分) 回归到数据上以便于大规模语料上快速打分。最终构造训练集时不是只从总体评分最高的数据抽而是从每个正交维度分别选取 top-scored 的数据 (或按比例抽样)从而保证训练集既覆盖多个维度又保持多样性 (因为不同维度上 top-scored 的数据往往彼此不同)。 实验证明用 ODiS 选择的数 据训练出的模型在多个下游任务上显著优于使用传统 基于打分单一指标的 baseline。作者报告当维度之间的重叠被有效避免inter-dimension overlap 2%时模型表现更稳定、更优秀。 这篇论文的贡献在于挑战“高分 好训练数据”的直觉并展示了为什么为了更好泛化我们需要在数据选择中更细粒度地分解质量指标并主动保证多样性而不是简单地选总分最高的数据。多策略集成驱动Collaborative / Ensemble MethodsEfficient Pretraining Data Selection via Multi-Actor Collaboration既然已有许多先进的数据选择方法 (quality-based / influence-based / diversity-aware / domain-mixing 等)那么是否可以将它们组合起來以发挥各自优势同时避开它们之间潜在的冲突?作者提出一个multi-actor协同的数据选择机制。将不同的数据选择方法看作独立的 “actor”。例如一个 actor 可能专注于质量 (quality filtering)另一个 actor 专注于多样性 (diversity)还有 actor 可能关注数据对模型影响 (influence)、domain 混合 (domain mixing) 等。在 pretraining 的不同阶段这些 actor 根据当前模型状态各自更新其优先级规则 (i.e. 根据当前模型表现调整对不同数据的偏好)。一个控制台负责动态调整各个 actor 的权重 (即决定当前由哪些 actor 主导数据选择)从而将多个信号整合起來。结果表明与单一方法或静态组合相比这种 multi-actor 协同机制能 显著加速预训练收敛并在数据效率上大幅提升。这篇论文展示了一条更加灵活、综合的数据选择路线不必拘泥于单一策略而是把多个策略当作专家协同让系统自身根据模型状态动态选择最合适的方法。结构化知识/技能驱动Skill- or Structure-aware SelectionMASS: Mathematical Data Selection via Skill GraphsMASS 专注于数学与推理相关数据的预训练数据选择。作者认为数学语料具有独特的结构与技能依赖通用的数据过滤方式往往无法有效捕捉这些特性。因此MASS 提出通过“技能图谱”skill graph来建模数学能力之间的关系并利用其评估训练数据的价值。方法首先从高质量数学语料中抽取核心数学技能例如代数、几何、微积分、证明推理等并构建其图结构。每个节点代表一种技能边表示技能之间的依赖。然后针对候选数学语料系统分析其涉及的技能组合并将其映射到技能图中根据覆盖技能的数量、深度和重要性生成质量分数。最后根据该分数对数据排序选出最能提升模型数学能力的数据子集。实验显示使用 MASS 数据的模型在数学推理任务中表现显著优于使用原始数据的模型并且在大幅减少 token 数量通常减少 50%–70%的情况下性能仍可提升约 4%–6%。这说明面向特定领域构建结构化技能图并据此选择训练数据是提升模型专业能力的一种极为有效的方法。任务相关性驱动Task-aware Data SelectionLanguage Models Improve When Pretraining Data Matches Target Tasks这篇论文系统研究了一个关键问题预训练语言模型时如果训练数据的分布与目标任务更为一致模型性能是否会显著提升。作者提出了一种简单而高效的数据选择方法 BETRBenchmark-Targeted Ranking。它的基本思想是将目标任务的样本与预训练语料的一个子集映射到同一向量空间中计算相似度排序再用轻量分类器把这种排序推广到整个大规模语料库。如此就能提取出最符合目标任务分布的预训练数据。作者训练了数百个模型并拟合了不同数据规模下的 scaling law。结果显示BETR 选择的数据可带来约 2 倍以上的计算效率提升模型性能也显著超过使用原始数据或者简单过滤后的数据。特别重要的是即使目标 benchmark 与下游评测任务并不重叠在存在分布偏移的情况下BETR 依然能取得与默认数据相当甚至更好的表现。文章得出了一个明确结论预训练数据的分布与任务需求的匹配程度比数据量更重要。通过一种可扩展的轻量方法对预训练语料进行任务相关性排序可以在不提高计算成本的情况下获得更高质量的模型。后训练的数据选择在线和离线数据选择结合Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward动机现有 RLVR 方法、通过扩大训练数据量和 rollout 数量来提升模型推理能力但这导致训练成本激增计算资源、时间且数据利用率低。离线数据选择传统方法需在全集上训练以计算数据选择指标如奖励趋势、梯度对齐计算开销大或忽略样本间关联性如仅基于难度过滤。在线 rollout 效率大量样本需昂贵 rollout 却对策略更新贡献微小现有方法如 GRESO仅粗粒度过滤零方差样本未区分样本的探索潜力。方法1. 多维度的离线数据选择1.1 用 LLM 最后一层 token 嵌入作为样本表征构建相似度图其中边权为余弦相似度。1.2 利用PageRank加权的行列式点过程联合最大化子集多样性与影响力。1.3 在剪枝后的子集上用当前策略离线rollout计算样本准确率作为难度指标。然后按正态分布采样优先选择中等难度样本。2. 熵驱动的在线 rollout 剪枝2.1 基于滑动窗口内历史熵与优势的加权指标获得模型的探索能力并选择高探索潜力的样本进行在线rollout。2.2 动态重放历史最少训练的样本保证所有样本都能得到充分的训练实验实验结果表明本文章的方法仅用20%的数据能逼近全量训练性能并且训练时间缩短40%rollout数量减少60%。本文在三个模型和五个推理数据集上都进行了详细的实验实验结果表明 DEPO 在各个数据集上都展现出强大的性能和效率优势。在线数据选择Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts论文分析了提示在不同训练epoch中的奖励动态发现零方差提示即所有响应的奖励都相同的提示在训练过程中具有很强的时间一致性。自适应调整探索概率采用了一种自适应机制来自动调整探索概率根据目标零方差比例和实际观察到的零方差比例动态调整探索概率。自适应采样批次大小如果当前批次中有效提示的数量不足算法会根据需要动态调整采样批次大小。离线数据选择LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment梯度对齐论文利用一阶泰勒展开近似模型参数更新对损失函数的影响定义了数据点之间的影响力为两个数据点的梯度内积。可学性 基于成功概率来衡量数据点的可学性该指标反映了数据点对模型性能提升的潜在价值。Learnalign分数结合数据可学性和梯度对齐计算LearnAlign分数用于评估数据点之间的相似性和可学性。数据选择方法预热训练从训练数据集中随机选择一个小子集进行预热训练以确保更稳定和准确的梯度估计。梯度信息估计在预热阶段计算每个数据点的梯度信息并通过随机投影将其降维。LearnAlign分数矩阵计算基于降维后的梯度信息计算所有数据点之间的LearnAlign分数形成一个分数矩阵。数据选择根据LearnAlign分数矩阵选择平均分数最高的前N个数据点作为最具代表性和可学性的数据子集。Reinforcement Learning for Reasoning in Large Language Models with One Training Example论文提出了“1-shot RLVR”的概念旨在探究仅使用一个训练样本是否能够实现与使用大规模数据集相当的性能提升。通过分析训练样本的历史方差得分选择具有最高方差的样本作为训练数据。这种方法基于假设高方差样本在训练过程中可能提供更丰富的信息。LIMR: Less is More for RL Scaling使用模型的平均奖励曲线作为参考计算每个样本的学习轨迹与模型整体学习轨迹的对齐程度。通过计算一个归一化的对齐分数来量化样本对模型学习的贡献分数越高表示样本与模型学习轨迹的对齐程度越好对模型优化的价值也越大。Data-Efficient RLVR via Off-Policy Influence Guidance将监督学习中的影响函数理论扩展到 RLVR给出训练样本对策略性能变化的一阶近似贡献度量。提出离策略影响力估计用行为策略预先采集的离线轨迹近似当前策略梯度彻底避免在线采样。引入稀疏随机投影在梯度计算前随机丢弃大部分维度再执行低维投影降低存储与计算成本并意外提升内积排序保持精度。基于上述估计构建多阶段课程强化学习框架 CROPI每阶段仅选用对验证集影响力最高的小部分数据进行 GRPO 更新。DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation阶段一用 9 k 均匀难度题、每题 8 rollout24 k 长度打破模式坍塌阶段二仅保留最难案例64 rollout三阶段递进持续逼迫模型突破难题边界。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】