优质网站建设是哪家门户网站功能
优质网站建设是哪家,门户网站功能,游戏发卡中心网站源码,企业微信小程序入口点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入#xff01; 在AI模型训练的传统认知里#xff0c;标签噪声向来是避之不及的“麻烦事”——纯净的数据、精准的标签#xff0c;才被视作提升模型性能的关键。然而#xff0c;近年来有不少研究都关注到一个反直觉的现象&a…点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入在AI模型训练的传统认知里标签噪声向来是避之不及的“麻烦事”——纯净的数据、精准的标签才被视作提升模型性能的关键。然而近年来有不少研究都关注到一个反直觉的现象在训练过程中给数据标签加噪声不仅不会拖垮模型反而能显著提升泛化能力。本项研究旨在探究这一反常现象背后的理论机理。为了在理论可解性和结构典型性取得平衡在本研究中作者聚焦于两层线性网络采用Label Noise SGD算法来进行迭代用严谨的理论与实验揭开了标签噪声背后的学习动力学奥秘。作者张桐铖 上海交通大学本科生周展鹏 上海交通大学博士研究生论文链接https://openreview.net/pdf?idKfsMlrl81a代码仓库https://github.com/a-usually/Label-Noise-SGD1核心方法Label Noise SGD的“反常识”魔力什么是Label Noise SGD优化算法Label Noise SGD方法并不复杂它融合了两项关键技术一项是大家熟知的随机梯度下降法SGD通过随机抽取数据子集计算梯度来优化模型另一项则是主动给训练标签“加噪声”——也就是在每一步以一定概率标签翻转概率τ将部分标签的类别随机替换为其他类别。此前已有研究团队发现这种方法可能提升泛化能力为了验证这一猜想研究选用ResNet-18模型在CIFAR-10数据集上展开实验设置了0.05、0.1、0.2三种不同强度的标签噪声结果令人惊喜在所有噪声强度下模型在测试集上的Loss持续降低测试集上的准确率平均提升了1.5%。这种“以噪提纯”的反常识现象让研究团队决心深挖其背后的理论逻辑最终构建出一套两阶段的理论证明体系第一阶段模型权重范数逐步衰减网络逐渐脱离“惰性训练”状态进入“丰富训练”状态第二阶段模型权重与优化目标向量的对齐度持续提升最终实现模型收敛。2理论揭秘两层网络的“双阶段进化”之路研究以两层线性网络为载体采用NTK初始化策略在过参数化网络、小学习率、适当输入量级的设定下完整呈现了模型从“惰性学习”到“丰富学习”的进化路径。第一阶段震荡驱动跳出“惰性”舒适区“惰性学习状态Lazy Regime”是许多模型训练中难以突破的瓶颈——简单来说就是网络权重在训练过程中变化甚微始终停留在初始状态附近难以挖掘数据中的深层规律。此前研究证实标准梯度下降法会让网络一直困在这个“舒适区”里。而Label Noise SGD的神奇之处就在于能打破这种僵局。研究发现了一个关键机制标签噪声会引发第二层神经元的持续震荡这个震荡的现象会驱使第一层神经元的权重逐步衰减进而脱离惰性训练状态。由于第二层权重初始值较小第一层权重的更新主要受这种震荡主导且更新量大概率呈现负值导致第一层权重范数逐步衰减。经过约1/η²数量级的迭代后所有神经元都会以高概率跳出惰性学习状态进入更具探索性的“丰富学习状态Rich Regime”。为了验证这一机制研究团队还设计了一组对照实验以5000步为周期交替添加和移除标签噪声。结果显示噪声添加时低层神经元范数持续衰减噪声移除时衰减立即停止。与此同时第二层神经元始终在零值附近震荡。这一对照实验清晰表明标签噪声正是驱动网络从“lazy”向“rich”蜕变的核心动力。第二阶段对齐收敛炼就“稀疏优质解”当所有神经元的权重范数减小到一定程度模型就进入了第二阶段此时的状态类似于“小初始化”模型具备了快速收敛的基础。在这一阶段神经元权重会快速向优化目标的方向对齐。完成对齐后模型会稳步收敛最终形成一个稀疏解。具体而言那些权重范数始终保持极小的神经元相当于“退出”了训练过程不再发挥作用而真正有用的神经元则专注于捕捉数据本质规律。这种稀疏特性正是模型泛化能力大幅提升的关键原因。合成实验的图表清晰地展现了这一过程部分神经元的范数先降后升逐步成为“核心力量”另一部分则持续维持低值最终被自然筛选淘汰。3拓展验证跨优化器的“普适性”既然Label Noise SGD的机制如此有效它能否推广到其他优化器上研究团队将目光投向了Sharpness-Aware MinimizationSAM锐度感知最小化优化器——这种优化器的核心目标是寻找更平坦的极小值点让模型更稳健。实验结果给出了肯定答案在不同设定下SAM展现出了与Label Noise SGD高度相似的双阶段变化特征。即使是在真实场景中用宽残差网络在CIFAR-10数据集子集上训练时添加标签噪声后模型的训练轨迹也与未加噪声时接近线性模型的轨迹截然不同呈现出丰富学习状态的典型特征进一步印证了这一机制的普适性。4未来方向还有哪些待解的“优化谜题”未来研究团队计划将理论框架进一步拓展一方面引入非线性激活函数探究非线性网络中这种动力学机制是否依然成立另一方面将研究场景从回归任务延伸到更广泛的分类任务中而这也是当前领域内仍为解决的开放问题。从“避之不及”到“主动利用”标签噪声的角色转变背后是对深度学习动力学本质的深度洞察。这项研究不仅为噪声鲁棒性学习奠定了理论基础更为实际场景中提升模型泛化能力提供了新颖而简洁的思路。本期文章由支昕整理往期精彩文章推荐关于AI TIMEAI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学者、行业专家和爱好者希望以辩论的形式探讨人工智能和人类未来之间的矛盾探索人工智能领域的未来。迄今为止AI TIME已经邀请了2000多位海内外讲者举办了逾800场活动超1000万人次观看。我知道你在看提出观点表达想法欢迎留言点击阅读原文观看作者直播回放