网页设计网站建设专业现状,整合营销传播经典案例,互助网站开发,绿色环保材料网站模板万亿参数的开源模型#xff0c;能接管编程工具当全自动码农#xff0c;还能给自己的大脑写代码实现#xff1f;#xff1f;#xff1f;我决定花一下午测个够。先介绍一下今天的主角。Ring-2.5-1T#xff0c;蚂蚁百灵团队刚发布的万亿参数开源思考模型#xff0c;全球首个…万亿参数的开源模型能接管编程工具当全自动码农还能给自己的大脑写代码实现我决定花一下午测个够。先介绍一下今天的主角。Ring-2.5-1T蚂蚁百灵团队刚发布的万亿参数开源思考模型全球首个混合线性注意力架构的万亿级选手。IMO 2025 国际奥数 35/42 拿到金牌水平CMO 2025 中国奥数 105 分远超国家集训队线 87 分GAIA2 通用 Agent 评测开源 SOTA。数字很漂亮但数字谁都会贴。我想搞点不一样的。我给它挖了个坑。找了一道经典的组合证明题涉及 {0,1}ⁿ 上的函数映射和 mod 2 求和是个不折不扣的组合证明硬骨头。我故意只给了“不完整”版本的题面少了一个关键的“或”条件。这个坑的设计是有讲究的。如果模型背过原题它会无视我的修改直接输出完整的标准答案。如果模型没背过大概率就顺着错误的条件硬推到底输出一堆看似合理的废话。Ring 花了 595 秒用了 26595 个 token。然后给了第三种反应。它指出我给的题面是错的。。The original problem statement quoted in the question asks only for the second alternative, but that alone is false – a counterexample is given below.然后它给了 n2 的反例f₁(x₁,x₂)0, f₂ 取决于 x₁证明了单独的求和条件确实不成立。接着补全了正确的题面存在 x,y 使得 F(x)F(y)或F(x)F(y)(1,...,1)用互补配对 鸽巢原理给了一个极其优雅的证明。它做的事情比“解一道难题”更高一级发现出题者我给错了条件纠正后再解。这就是 Ring-2.5-1T 的深度思考能力。说白了蚂蚁百灵团队炼丹的方式就不一样。他们的训练方法叫Dense Reward对推理过程的每一步都打分不只看最终答案对不对。效果就是模型的思考链质量极高逻辑漏洞极少。但今天不看竞赛分数。我花了一下午拿它当码农使唤把它接进开源编程工具 opencode 做完整的工程开发任务让它给自己的大脑写代码实现。不过在看这些测试之前得先聊聊 Ring 的架构。万亿参数为什么反而更快Ring-2.5-1T 是全球首个开源的混合线性注意力架构万亿模型。这个“混合线性注意力”是它最独特的差异化核心思路如下传统 Transformer 的注意力计算量随 context 长度平方增长。你让模型深度推理思考链一超过 32K token成本就爆炸。通用智能体时代深度思考deep thinking和长程代理long-horizon agent是基座模型的基本工作范式对解码效率的要求极高。Ring 怎么解决这个问题把注意力层分成两种1/8 的层用 MLAMulti-Head Latent Attention传统精确注意力逐字逐句仔细看准但慢7/8 的层用 Lightning Linear Attention线性复杂度大段大段扫过去快但粗打个比方。你读一本 500 页的技术手册不可能每页逐字精读。大部分内容速读扫过去碰到关键公式和核心定义再切精读模式。Ring 的 1:7 比例就是这个思路。效果很直接32K 以上的长生成访存量降 10 倍 吞吐量提 3 倍 。这里有个反直觉的地方。Ring 的激活参数 63B比 Kimi K2 的 32B 多了将近一倍。按常理参数越多越慢。但因为 7/8 的层用了线性注意力实际推理速度反而更快而且生成越长优势越大。对比 MoE 架构Ring 在长程推理场景的吞吐优势更明显。官方在 H20 8 卡集群上的测试显示生成长度拉到 32K 后Ring 的解码吞吐decode throughput显著领先同级别模型。另外提一下训练策略。前面说的Dense Reward是个关键创新传统强化学习训练只看最终答案对不对“整道题做对了给 1 分做错了 0 分”。Ring 的做法不同对推理过程的每一步都打分。模型的思考链因此质量更高追求的是每一步都想对。再加上大规模全异步 Agentic RL 训练让模型在真实的搜索、编码、工具调用任务中反复练习长链路执行。Ring-2.5-1T 在数学、代码、逻辑等高难推理任务IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2和智能体搜索、编码、工具调用等长程任务执行 GAIA2-search、Tau2-bench、SWE-Bench Verified上均达到了开源领先水平。好了架构讲完了。看正式测试。给自己的大脑写代码1174 秒25612 个 token这是整个测试里我最想写的一个 Case。我让 Ring-2.5-1T 用 PyTorch 从零实现 Lightning Linear Attention也就是它自己架构里 7/8 的层用的那个核心组件。具体要求实现因果线性注意力用递推公式避免 O(n²) 的显式注意力矩阵两种 kernel functionELU1 和 ReLU实现标准 softmax attention 作为对照写完整 benchmark对比不同序列长度512 到 16384的时间、显存生成 matplotlib 可视化Ring 花了 1174 秒将近 20 分钟用了 25612 个 token。它的思考链非常长。我截了关键的一段首先理解题目Lightning Linear Attention 可能指基于线性注意力的轻量级注意力机制……对于因果线性注意力我们需要确保只考虑前面的 token即自回归模型中的因果 mask。递推公式可以避免计算整个注意力矩阵逐 token 更新状态。……这里需要权衡。向量化 cumsum 方案需要存储 (L, d, d_v) 张量L16384, d128 时约 1GB。循环方案内存更低但 Python 循环太慢。最终采用向量化 cumsum 合理维度设置。它分析了两种实现方案的 trade-off向量化 vs 循环最终选了一个平衡方案。用自己的技术解释自己的技术。一个模型花了 20 分钟从数学推导到工程实现到 benchmark 脚本把自己脑子里的核心算法完整地写了出来。从算法逻辑和代码结构看质量到位。Ring-2.5-1T 的架构论文发布时间和训练数据截止时间很近所以它更像是在理解原理后重新推导实现不太可能是在回忆训练数据里见过的现成答案。我不知道一个模型理解自己的架构然后用代码重现出来算不算某种意义上的“自我理解”。但这个画面一个模型坐在那里花 20 分钟把自己大脑的核心逻辑翻译成代码我看着看着整个人是有点恍惚的。接入 OpenCode 搞真实项目形而上的事聊够了能不能让 Ring 直接驱动编程工具干活不是调个 API 写个小函数那种是真的在终端里当全自动码农。Ring 走 OpenAI 兼容协议我把他接入了开源工具opencode然后连着给下了四个任务全程零人工干预。第一个是黑白棋游戏请用纯 HTMLCSSJS 实现一个完整的黑白棋Reversi/Othello游戏要求1) 标准 8x8 棋盘黑先手 2) AI 对手用 Minimax Alpha-Beta 剪枝实现 3) 三种难度Easy随机、Medium深度 3、Hard深度 5 4) 棋子翻转有 3D 旋转动画 5) 落子有音效Web Audio API不用外部文件 6) 有开始画面、游戏结束弹窗、胜负统计localStorage 7) 响应式布局支持手机 8) 单个 HTML 文件Ring 先写了一份 250 行的产品规格文档 SPEC.md精确到配色值、字号、评估函数权重、24 条验收标准然后才动手写代码。先写 Spec 再写代码。这是在做项目管理啊。最终 24 项验收标准全部通过。再看看任务二粒子动画作品集网站请用纯 HTMLCSSJS单个 HTML 文件实现一个炫酷的个人作品集网站要求1) 全屏 hero 区域有粒子动画背景用 Canvas 实现粒子之间有连线效果 2) 深色科技感主题主色调为渐变紫蓝色 3) 滚动时有视差效果parallax scrolling 4) 所有 section 进入视口时有 fade-in slide-up 动画 5) Hero 区大标题 打字机效果逐字显示副标题 6) 技能雷达图Canvas 手绘这次Ring 又先写了 SPEC.md这已经是它的习惯了然后输出了 44KB 的单文件 HTML。全屏粒子动画背景紫蓝渐变色粒子之间有连线效果随鼠标互动打字机效果逐字显示6 个项目卡片带 emoji 图标和技术栈标签回到顶部按钮、毛玻璃导航栏、fade-in 动画全部到位。纯手写代码视觉效果不输模板网站。没忍住再试个前端数据仪表盘 4 种 Canvas 手绘图表、深色/浅色主题切换、数字递增动画、2x2 响应式网格不用任何第三方图表库Ring 输出了 47KB 的单文件。折线图带面积填充、柱状图带渐变色、环形图中间显示总金额 2,360 万、热力图从冷色到暖色。没有 ECharts没有 D3.js全部 Canvas 手绘。看起来也不错。再试试后端项目吧我让他从零搭建 FastAPI REST API请用 Python 实现一个完整的 Task Manager REST API要求1) FastAPI 框架 2) SQLAlchemy SQLite 数据库 3) JWT Token 认证注册/登录 4) Task 的完整 CRUD创建/读取/更新/删除 5) Task 有 priority 和 status 枚举字段 6) 支持分页和按 status/priority 过滤 7) 用户只能操作自己的 Task权限隔离 8) 写完整的 pytest 测试套件覆盖所有 API 端点 9) 运行测试并确保全部通过收到命令Ring 自主创建了 7 个 Python 文件然后安装依赖、运行测试。但第一次跑测试报错了。Priority 枚举转换出了 type error。它自己看了报错信息分析出是Priority[value.capitalize()]的枚举构造方式不对自动改成了Priority(value)重新跑测试25 个测试全部通过。写代码、跑测试、发现 bug、分析原因、修复、重测通过一整个开发循环它自己走完了。四个任务下来我发现 Ring 有个一致的行为模式每次接到复杂任务它都会先写一份 SPEC.md 产品规格文档再动手写代码。黑白棋的 SPEC 精确到评估函数权重和 24 条验收标准作品集的 SPEC 列出了每个 section 的交互细节。没人要求它这么做这是经过 Agentic RL 训练后自动习得的工程习惯。说真的看着终端里 Ring 自己规划、自己写、自己测、自己修的时候有种在旁观一个新人入职后快速上手的感觉。只不过这个新人 20 分钟就能从零搭一个粒子动画网站。这就是“长程自主执行能力”的真实体现。经过大规模全异步 Agentic RL 训练后Ring 能适配编程工具框架在复杂长程任务中自主推进。自己规划工作流、自己发现问题、自己修复、自己验证全套流程一气呵成。接入 OpenClaw 当个人 AI 助理Opencode 测的是编程能力但 Ring 作为智能体基座的玩法不止于此。OpenClaw 是最近两个月 GitHub 上增长最快的开源项目160K stars一个可以接入 Telegram、WhatsApp 等聊天平台的 AI 个人助理框架。我把 Ring 接进了 OpenClaw在 Telegram 里用/model ring一键切换到zenmux/inclusionai/ring-2.5-1t然后让它干了个实际活儿自动化 AI 新闻监控。我给了它 80 个 RSS 源和一套新闻评分规则让它每天自动抓取、筛选、排序最有价值的 AI 行业新闻。Ring 在 Telegram 里直接输出了一份结构化的新闻速报按重要性排序每条新闻带一句话摘要和关键标签。从 OpenAI 最新动态到国内开源模型发布都能覆盖到。编程工具里当码农聊天平台上当助理。Ring 作为智能体基座的适配能力确实比较全面。这些场景串起来指向同一个东西Ring 的混合线性注意力架构让它在长程推理和 Agent 长链路任务中有结构性的效率优势Dense Reward 训练让它的每一步推理都经过严格打分。深度思考加上长程执行万亿参数开源免费。Ring 还支持 function calling工具调用可以在 Agent 框架中调用搜索、代码执行、文件操作等外部工具。max_tokens建议设 32K 以上给足推理空间效果最佳。至于万亿参数的推理模型当智能体基座意味着什么我想每个在做 Agent 应用的开发者心里已经有自己的判断了。推荐大家去试试看