企业建站团队软件工程培训机构学费
企业建站团队,软件工程培训机构学费,wordpress 音乐主题,wordpress 旧版本下载来源#xff1a;学术头条整理#xff1a;王跃然 王江珏【编者按】日前#xff0c;菲尔茨奖得主、华裔数学家、加州大学洛杉矶分校教授陶哲轩在牛津数学公开讲座中#xff0c;探讨了人工智能#xff08;AI#xff09;将如何改变数学这个“最保守的学科”。他指出#xff…来源学术头条整理王跃然 王江珏【编者按】日前菲尔茨奖得主、华裔数学家、加州大学洛杉矶分校教授陶哲轩在牛津数学公开讲座中探讨了人工智能AI将如何改变数学这个“最保守的学科”。他指出数学有着惊人的连续性——200 年前的教科书今天仍可使用黑板与粉笔依然是标配论文合著者数量长期徘徊在每篇 2.5 人远低于其他科学的“大合作”模式。但这种延续数个世纪的研究范式正在被新技术打破。核心观点如下形式化验证使正确运用机器学习和 AI 来解决问题成为可能。当前 AI 本质是“猜测机器”必须与验证器结合AI 负责批量生成候选答案验证器负责剔除错误。AI应处理“中等难度长尾问题”而非替代数学家攻坚。 最有效的应用方向不是让AI挑战人类最擅长的创造性难题而是让它完成第一遍筛选再把真正困难的留给人类专家。数学研究正在从“个案研究”转向“大规模调查”。AI 的使命不是缩小数学的蛋糕而是把它做大。学术头条在不改变原文大意的情况下做了简单的编译。演讲内容如下我将谈谈我所在的数学领域在 AI 时代是如何发生变革以及这种变革可能对其他学科产生的影响。但当前我们身处一个充满变革和不确定性的时代这是我们不太习惯的。就数学领域而言我们或许是所有学科中最保守的因为几个世纪以来我们的研究方法几乎未曾改变。左侧展示的是一本 200 年前由柯西教授撰写的教科书其中介绍了我们现在称之为柯西积分公式的内容。虽然在当前的分辨率下难以辨认但是它的内容几乎和如今研究生使用的教材一模一样。除了它是法语而不是英语且没有采用现代计算机排版语言排版之外它如今完全可以使用。数学的这种连续性正是其强大的一大优势。我们使用 200 年前、甚至 2000 年前的成果。比如我在工作中经常用到勾股定理。这确实很棒但这确实意味着我们往往不像其他学科那样热衷于追逐潮流。右边这本咖啡桌画册是由摄影师杰西卡·温创作的。她对数学家使用的黑板非常着迷。我们几乎是唯一一个仍然保留黑板和粉笔的学科了。其他人都开始用 PPT、白板等现代工具了。但是我的办公室里还是有六块黑板。我超爱它们绝对舍不得丢弃。话说回来她给数学家们的黑板拍了照片制作了一本精美的小型艺术画册。我们与其他科学领域的区别还在于数学研究往往缺乏合作。这里有一些科学指标可以参考多年来我们论文的合著者平均数从每篇 1.5 人逐渐上升到数学领域的 2.5 人。但看看其他学科它们正在蓬勃发展——那些大型合作研究项目层出不穷数学家们却远远落后。现在这并不是因为我们不善交际或者不仅仅是因为不善交际。这里确实存在一些系统性问题。传统数学项目历来都有很高的准入门槛。通常需要数学博士才能理解研究课题。我们要求证明必须在每个细节上都做到百分之百正确。所以如果你尝试通过众包获取证明当 100 个贡献中有一份出错时整个证明就会被推翻。而我们现有的工作流程比如用粉笔在黑板上一起讨论解决问题无法扩展到与 100 人通过互联网进行协作。其他科学领域正在蓬勃发展我们难道就落后了吗其实情况正在开始改变这要归功于新技术的推动包括 AI 虽然我认为 AI 只是其中一部分。我们正逐步掌握如何开展大规模研究项目。要知道直到最近数学研究还停留在“案例分析”阶段——先攻克一个难题花几个月时间完成报告然后转向下一个课题。但现在我们开始采用“调查研究”模式能够同时处理数百甚至数千个问题。我们或许无法解决所有问题但我们可以收集有关这些难题群体的各种有趣数据。我们正开始突破数学博士群体的局限扩大参与范围。“公民科学”正在其他学科领域蓬勃发展而数学领域的“公民数学”才刚刚起步。虽然目前还处于萌芽阶段但我们正逐步摸索如何正确运用机器学习和 AI 来解决问题。虽然我们发现许多错误的 AI 应用方式但这些工具的实用价值正逐渐显现。其中有个关键要素让这一切成为可能——形式化验证。形式化验证是一种特殊的计算机语言简单来说它能自动处理数学论证并验证其正确性。这种技术能大幅减少干扰因素有效过滤掉那些曾阻碍新型工作流程发展的“糟粕”。举个例子我今天只能在演讲中分享一个半案例。第一个案例是去年我在加州大学洛杉矶分校启动的“方程理论项目”这个项目是我与 50 位合作者共同完成的。其中大部分伙伴都是通过这个项目结识的之前我都没见过面。而且他们中的大多数并不是专业数学家。很多计算机科学家、学生、研究生、本科生甚至一些高中生都参与了这个开放的协作项目。这个代数研究项目的具体内容我暂时不便透露但是我们通过程序生成了 2200 万个代数问题。比如典型问题就是交换律是否蕴含结合律如果有一个运算使得 a*b 等于 b*a你能推断出 a*b*c 等于 a*b*c 吗结果表明答案是否定的。但是我们生成了 2200 万个这类问题。任何一个具体的问题也许一个代数专业的研究生可以花一个小时就能判断对错。但问题数量高达 2200 万个我可没有 2200 万研究生。有人会说“让我们众包吧”“开放平台让公众参与”。但要处理 2200 万道代数题这根本没人能搞定。我也没时间处理。所以这类项目在过去根本无法实现。比如之前文献里提到的同类项目最多也就研究过 20 道题。但这次涉及 2200 万道题完全不是一个量级。不过我们居然在三个月内完成了这个项目。对于每个命题我们都有对应的证明或反证来证明它是真是假。为此我们不得不发明一些新的工作流程我们在 GitHub 上搭建了大型储存库所有证明都必须用标准化语言“形式化”这样才能实现自动化验证。我们使用了 Lean 这个证明辅助语言。我们搭建了活跃的讨论区这里既有人工生成的证明有人会从 2200 万条推论中随机选取一条进行验证并发布其他人则会尝试复刻这些成果。研究人员会运行计算机程序尝试解决全部 2200 万个问题他们的程序每次最多能处理 10 万个问题。团队成员会反复调整将人类证明转换为计算机证明或将计算机证明转换为人类证明。这种反复调整的过程我们算是即兴摸索出来的但效果确实非常显著。我认为这个项目成功有几个关键因素1.高度模块化设计系统本身就被拆解成 2200 万个相关问题研究人员可以针对其中的某个子集展开专项攻关。或者说有些人会专门撰写人类可读的证明文件而另一些人则会专门将这些证明转化成计算机可读的证明。你不必事无巨细地了解项目每个环节完全可以专注于某个特定领域。这就像现代软件开发项目中的分工协作模式。2.明确的评估标准另一个关键优势在于我们制定了明确的评估标准。当项目设定目标并建立评分体系比如损失函数后就能开始优化改进这种机制为项目推进开辟了全新思路。在项目进行到第 16 天时系统显示存在 2200 万条关联数据。但实际上我们早在第 16 天就解决了除 888 条之外的所有问题。随后团队会从这些数据中筛选出部分子集进行专项研究。这种机制让项目实现了自主分散化运作——参与者自发开展研究若发现有效方案就会为数据库新增解决方案使剩余问题数量持续减少。整个团队就这样不断推动项目进展。有些想法让这个数字大幅下降有些则不太成功不过我们不需要像传统项目那样协调配合——你知道的大家各司其职。虽然我们进行了任务分配但参与者们也自发地展开了许多独立活动这过程其实挺有意思的。3.形式化验证打破信任壁垒最后我提到的秘诀是形式化验证关键在于它能打破信任壁垒。以前在数学领域如果你想和其他人合作要么你必须检查他们提交的每一行内容要么你必须相信他们拥有足够好的声誉相信他们的工作质量足够高值得被纳入你的论文中。但是我们收到了来自各种各样的人的投稿这些人我们从未见过。但是所有贡献都必须经过这种形式化验证所以我们可以接受匿名或不受信任的贡献。而且这种验证方式确实能带来极其精确的讨论。比如有人尝试验证某个证明比如人工验证然后将其转换为Lean 代码。假设这个证明包含九个步骤其中八个步骤都能正常运行但最后一个步骤存在形式化问题。这时可以与原作者进行深入讨论针对这个需要特别说明的微步骤进行澄清。这种讨论虽然不需要 BLE 工具但通常需要耗费大量时间来规范符号体系和通用术语。有时候人们可能不太明白如果不能具体说明某个步骤为什么你会卡在这个环节。但这些编程语言支持极其精确的技术讨论甚至能细化到原子级层面。而且你不需要完全理解整个项目就能推进工作。虽然我们确实使用了一些相对复杂的 AI 技术特别是那些被称为自动定理证明器的工具但事实上像 GitHub 这样的基础协作平台以及 Zulip 平台上的讨论组这类基础协作工具反而非常实用且不可或缺。我有时间再讲半个案例。这个项目是与 Google DeepMind 合作进行的虽然已经进入开发阶段但论文还在审批流程中所以具体成果暂时不便透露。不过可以大致说明谷歌在该领域的前期工作目前大型语言模型正变得越来越强大能够解决奥林匹克竞赛级别的难题有时甚至能解答相当复杂的数学问题。但它们仍会出错而且这些错误往往非常基础。就连最新款的模型当你问它简单算术题时有时答对有时答错。比如有个题目它把 7*48*8 算错了结果被指出错误后道歉最后居然也答对了。所有数学家都试过用这种系统最终发现它的不可靠性实在是个大问题。不过要是能把这种不稳定输出和验证器结合起来——也就是能实际检测输出是否正确的工具——那至少在理论上还是能派上用场的。有时候你可以让它进入循环运行让语言模型生成数学计算结果然后进行测试。如果运行正常就很好如果出问题就将错误信息反馈给模型让它尝试修正。确实有很多人尝试过各种方法来实现这个功能效果参差不齐。我一直在与 DeepMind 合作开发他们最新推出的 Alpha Evolve 工具。除此之外还有其他方案比如底层的通用算法。不过这个方案目前看来效果还算不错。它已经能够解决某些类型的数学问题了。几个月前我们发表了一篇初步论文其中我们成功地改进了诸如打包问题的各种界限。例如如果你有 11 个六边形能同时容纳这 11 个六边形的最小六边形是什么之前也有关于最佳包装的记录。通过让大语言模型尝试各种随机的东西获得反馈不断改进代码他们最终获得了数值上的提升。这些本身只是一些测试用例是有限维优化问题只是我们所关心的所有数学问题中很小的一部分。不过我们最近在研究无限维优化问题方面也取得了一些进展。很遗憾我现在还不能透露更多信息。敬请期待几周后我们会发表一篇论文。总而言之这些工具正在逐步改变我们的职业领域。它们已经在多个方面发挥着重要作用辅助次要任务事实上我和许多同事日常工作中都会用到 AI 来辅助完成次要任务。比如编写计算机代码现在变得轻松多了进行文献综述也变得更加高效。发现新模式虽然我们还无法系统化地应用但已有零星案例表明将数据集输入 AI 后确实能获得新的数学猜想和发现规律。充当“万能翻译器”AI 还能帮助科学家跨越专业壁垒——虽然我们的术语体系与同行存在差异但借助 AI 技术沟通效率已显著提升。目前已有诸多 AI 应用展现出良好效果但要开发更先进的应用场景我们仍需通过严格的验证机制来规范其使用。说白了我们只能在信任 AI 输出结果的前提下使用它或者至少能进一步验证这些结果。但风险实在太高了。虽然 AI 能为数学家提供一定帮助但我觉得它们最有效的应用场景还是需要融入更广泛的科研协作体系。只有通过团队协作才能填补 AI 在数学研究中存在的空白。最直观的用法就是让 AI 来替代数学家最擅长的领域——用创新方法攻克那些棘手难题。但实际上AI 还有一个正交的、更有前景的应用方向处理那些中等难度的问题。比如这 2200 万道代数题我们没有足够的人力来解决但可以让 AI 先进行初步探索找出所有容易解决的问题然后再把任何难题交给人类专家。在专家小组讨论中大家也提到了这种范式。总体来说我认为 AI 不应该是为了和人类竞争现有工作量而是要扩大这个领域创造更多经济上可行的新任务。虽然存在许多前景广阔的应用场景但其应用具有高度情境依赖性。这并非即插即用的解决方案我们必须掌握其使用方法及适用时机。谢谢大家。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。