网站首页自动下拉广告服务器网站管理助手
网站首页自动下拉广告,服务器网站管理助手,在哪里能找到做网站的人,响应式网站 图片尺寸奇数开源编程模型NousCoder-14B技术解析与未来挑战
开源人工智能初创公司Nous Research于本周一发布了一款新的竞争性编程模型。据称#xff0c;该模型仅使用48个某中心最新B200图形处理器#xff0c;在四天内完成训练#xff0c;其性能可匹敌或超越多个更大的专有系统。
该模…开源编程模型NousCoder-14B技术解析与未来挑战开源人工智能初创公司Nous Research于本周一发布了一款新的竞争性编程模型。据称该模型仅使用48个某中心最新B200图形处理器在四天内完成训练其性能可匹敌或超越多个更大的专有系统。该模型名为NousCoder-14B在众多AI编程助手中再添一员但其发布时机正值一个备受关注的时刻自元旦以来竞争对手Anthropic的Claude Code代理式编程工具主导了社交媒体讨论开发者们纷纷发布对其能力的惊叹评价。这两项进展同时发生突显出AI辅助软件开发正在以多快的速度演进以及大大小小的公司正在如何激烈地争夺这一被许多人认为将成为软件编写基础的技术。NousCoder-14B在LiveCodeBench v6上达到了67.87%的准确率。该标准化评估测试模型针对2024年8月至2025年5月期间发布的竞争性编程问题的解决能力。根据Nous Research随发布一同发布的技术报告这一数字相比其训练所基于的基础模型——某机构的Qwen3-14B提高了7.08个百分点。这种对比具有启发性虽然某机构的Claude Code凭借端到端软件开发的演示捕获了人们的想象力但Nous Research押注基于可验证问题训练的开源替代方案能够缩小差距并且这些模型的构建透明度与原始能力同样重要。Nous Research如何构建了一个任何人都可以复现的AI编码模型NousCoder-14B的发布与许多竞争对手公告的不同之处在于其极致的开放性。Nous Research不仅发布了模型权重还发布了完整的强化学习环境、基准测试套件和训练框架——构建在该公司的Atropos框架之上——这使得任何拥有足够计算资源的研究人员都能够复现或扩展这项工作。该模型由Nous Research的驻场研究员Joe Li训练完成他本人也是一名前竞赛程序员。Li的技术报告揭示了一个意想不到的个人维度他将模型的改进轨迹与他本人在Codeforces一个竞赛编程平台参与者根据比赛表现获得评级上的旅程进行了比较。根据将LiveCodeBench分数映射到Codeforces评级的粗略估算Li计算出NousCoder-14B的进步——从大约1600-1750的评级范围跃升至2100-2200——反映了他本人在14至16岁之间持续近两年练习才完成的跨越。而模型在四天内就实现了等效的飞跃。但Li很快指出了一个重要的注意事项这涉及到关于AI效率的更广泛问题他在那两年中解决了大约1,000个问题而模型则需要24,000个。至少就目前而言人类仍然是样本效率高得多的学习者。强化学习系统内部如何利用24,000个竞赛编程问题进行训练NousCoder-14B的训练过程提供了一个窗口让我们了解研究人员如何通过强化学习使用日益复杂的技术来改进AI的推理能力。该方法依赖于研究人员所称的“可验证奖励”——一个系统其中模型生成代码解决方案这些解决方案根据测试用例执行然后模型接收一个简单的二元信号正确或不正确。这个反馈循环虽然在概念上简单明了但需要大量的基础设施才能大规模执行。Nous Research使用云计算平台Modal并行运行沙盒代码执行。24,000个训练问题中的每一个平均包含数百个测试用例系统必须验证生成的代码在时间和内存限制内分别为15秒和4GB产生正确的输出。训练采用了一种名为DAPO动态采样策略优化的技术研究人员发现该技术在其实验中表现略优于其他替代方案。一个关键的创新涉及“动态采样”——丢弃模型要么解决所有尝试、要么失败所有尝试的训练样本因为这些样本无法为学习提供有用的梯度信号。研究人员还采用了“迭代上下文扩展”首先用32,000个令牌的上下文窗口训练模型然后扩展到40,000个令牌。在评估期间将上下文进一步扩展到大约80,000个令牌产生了最佳结果准确率达到67.87%。或许最重要的是训练管道重叠了推理和验证——一旦模型生成一个解决方案它就开始处理下一个问题同时前一个解决方案正在被检查。这种流水线操作加上多个模型实例并行工作的异步训练最大限度地提高了昂贵GPU集群的硬件利用率。迫在眉睫的数据短缺可能减缓AI编码模型的进展Li的技术报告中埋藏着一个对AI未来发展具有重大影响的发现NousCoder-14B的训练数据集包含了“在标准化数据集格式中所有现成可用的、可验证的竞争性编程问题的很大一部分”。换句话说对于这个特定领域研究人员正在接近高质量训练数据的极限。这一观察与整个AI行业对数据限制日益增长的担忧相呼应。虽然计算能力根据众所周知的经济和工程原理持续扩展但训练数据正如Li所说正“变得越来越有限”。对于竞争性编程而言这一挑战尤其严峻因为该领域需要已知正确解决方案且可自动验证的问题。与自然语言任务不同自然语言任务可以通过人工评估或代理指标来完成而代码要么有效要么无效——这使得合成数据生成变得更加困难。Li指出了一条潜在的途径训练模型不仅要解决问题还要生成可解决的问题从而实现一种类似于在游戏AI系统中证明成功的技术的自我博弈形式。“一旦解决了合成问题生成自我博弈就成为一个非常有趣的方向。”Nous Research在AI领域确立了一个独特的定位一家致力于发布开源模型的公司这些模型与专有替代方案竞争有时甚至超越它们。该公司在2025年4月由专注于加密货币的风险投资公司Paradigm领投的一轮融资中筹集了5000万美元。根据一些报道总融资额达到6500万美元。这项投资反映了人们对去中心化AI训练方法日益增长的兴趣Nous Research已在该领域开发了其Psyche平台。先前的版本包括Hermes 4模型系列以及DeepHermes-3该公司称其为第一个“可切换推理模型”——允许用户按需激活扩展的思考能力。该公司培养了一种独特的美学和社区引发了一些关于风格是否会掩盖实质的质疑。其他人则提出了技术问题。一位评论者指出“基于基准测试Nemotron更好。” 另一位则询问NousCoder-14B是“专注于代理还是仅仅是‘一次性’编码”——这一区别对于实际软件开发很重要因为在反馈基础上迭代通常比单次尝试产生更好的结果。研究人员指出的AI编码工具持续改进的下一步方向该发布包含了未来工作的几个方向暗示了AI编码研究可能的发展趋势。多轮强化学习位居榜首。目前模型在生成解决方案后只接收最终的二元奖励——通过或失败。但竞争性编程问题通常包括提供中间反馈的公共测试用例编译错误、输出错误、时间限制违规。训练模型在多次尝试中整合这些反馈可以显著提高性能。控制响应长度仍然是一个挑战。研究人员发现不正确的解决方案往往比正确的解决方案更长并且在训练期间响应长度迅速达到可用上下文窗口的上限——各种算法修改都无法解决这一模式。也许最雄心勃勃的是Li提出了“问题生成和自我博弈”——训练模型既能解决又能创建编程问题。这将通过使模型能够生成自己的训练课程来直接解决数据稀缺问题。“人类非常擅长为其他竞赛程序员生成有趣且有用的问题但似乎在创造性问题生成方面LLM能力仍存在显著差距。”该模型现已根据Apache 2.0许可证在Hugging Face上提供。对于希望在此基础上进行构建的研究人员和开发人员Nous Research同时发布了完整的Atropos训练框架。Li花了两年青春专注实现的成就——在Codeforces上从1600级新手攀升到2100级竞争者——AI在96小时内便得以复现。他需要解决1,000个问题。模型需要24,000个。但很快这些系统可能学会编写自己的问题自我教学并完全超越人类的基准。问题不再是机器能否学会编程。而是它们是否会很快成为比我们以往任何时候都更好的老师。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享