有网站怎么开发app,字体 添加 wordpress,仅对wordpress自带主题有效,如何登陆建设银行信用卡网站数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪#xff0c;其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进#xff0c;以至于数学基准测试都难以跟上。 早在2024年11月#xff0c;非营利研究机构Epoch AI悄然发布了…数学通常被认为是衡量AI进步的理想领域。数学的逐步逻辑推理过程易于追踪其确定的可自动验证答案排除了任何人为或主观因素。但AI系统正以如此快的速度改进以至于数学基准测试都难以跟上。早在2024年11月非营利研究机构Epoch AI悄然发布了Frontier Math。作为一个标准化、严格的基准测试Frontier Math旨在衡量最新AI工具的数学推理能力。这是一堆真正困难的数学问题Epoch AI高级研究员Greg Burnham解释道。最初是300个问题我们现在称之为第1-3层级但看到AI能力真正加速后我们感到必须跑得更快才能保持领先所以现在有一个特殊挑战集包含额外精心构造的问题我们称之为第4层级。粗略来说第1-4层级涵盖从高年级本科生到早期博士后水平的数学。刚推出时最先进的AI模型无法解决Frontier Math中超过2%的问题。快进到今天最好的公开AI模型如ChatGPT 5.2 Pro和Claude Opus 4.6正在解决Frontier Math 300个第1-3层级问题中的40%以上以及50个第4层级问题中的30%以上。这种令人眩晕的进步速度丝毫没有减缓的迹象。例如最近Google DeepMind宣布从Gemini Deep Think衍生的实验性AI系统Aletheia取得了可发表的博士级研究成果。尽管在数学上比较晦涩——计算算术几何中称为特征权重的某些结构常数——但这一结果在AI开发方面意义重大。他们声称这基本上是自主完成的意味着人类没有指导这项工作而且是可发表的Burnham说。这绝对处于能让数学家兴奋的工作光谱的低端但它是新的——这是我们以前真正没有见过的东西。为了将这一成就置于背景中每个Frontier Math问题都有一个人类推导出的已知答案。虽然人类可能也能达到Aletheia的结果如果他们坐下来下定决心工作一周Burnham说但之前没有人类这样做过。Aletheia的结果和AI数学家最近的其他成就表明需要新的、更严格的基准来理解AI能力而且要快因为现有的基准很快就会变得无关紧要。有一些更容易的数学基准已经过时了好几代都是如此Burnham说。Frontier Math可能会在未来两年内饱和意味着最先进的AI模型得分达到100%可能会更快。为了开始解决这个问题2月6日一组11位杰出数学家提出了First Proof挑战这是一套10个极其困难的数学问题这些问题在作者的研究过程中自然产生其证明大约五页或更少且未与任何人分享。First Proof挑战是评估AI系统独立解决研究级数学问题能力的初步努力。在数学界引起严重轰动专业和业余数学家以及包括OpenAI在内的团队都迎接了这一挑战。但当作者们在2月14日发布证明时没有人提交所有10个问题的正确解答。事实上远非如此。作者们自己只用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro解决了10个问题中的2个。大多数外部提交的表现也好不了多少除了OpenAI。在有限人工监督下OpenAI最先进的内部AI系统解决了10个问题中的5个——这一结果在数学界不同成员中引起了从敬畏到失望的各种情绪。First Proof背后的团队计划在3月14日进行更困难的第二轮。我认为First Proof非常棒它尽可能接近让AI系统站在数学家的立场上Burnham说。虽然他钦佩First Proof如何为广泛的数学和数学家测试AI的数学实用性但Epoch AI有自己的新测试方法——Frontier Math: Open Problems。独特的是这个试点基准包含14个来自研究数学的开放问题更多问题即将推出专业数学家曾尝试但未能解决。自1月27日Open Problems发布以来没有一个问题被AI解决。通过Open Problems我们试图让它更具挑战性Burnham说。仅基准本身就是可发表的至少在专业期刊上。更重要的是每个问题都设计得可以自动评分。这有点反直觉Burnham补充道。没有人知道答案但我们有一个计算机程序能够判断答案是否正确。Burnham认为First Proof和Open Problems是互补的。我想说理解AI能力是多多益善的情况他补充道。AI已经达到了在某些方面比大多数博士生更好的程度所以我们需要提出问题其答案至少对一些人类数学家来说是适度有趣的不是因为AI在做它而是因为它是人类数学家关心的数学。QAQ1Frontier Math是什么它是如何测试AI数学能力的AFrontier Math是由Epoch AI发布的标准化数学基准测试包含300个第1-3层级问题和50个第4层级问题涵盖从高年级本科生到早期博士后水平的数学。它通过让AI解决真正困难的数学问题来衡量AI的数学推理能力目前最好的AI模型能解决其中40%以上的问题。Q2为什么现有的数学基准测试很快就会过时A因为AI系统改进速度极快原本只能解决2%问题的AI模型现在已经能解决40%以上的问题。专家预测Frontier Math可能会在未来两年内被完全攻克一些更简单的数学基准已经完全过时需要不断创造更困难的测试来跟上AI的进步速度。Q3First Proof挑战和Open Problems有什么区别AFirst Proof挑战包含10个极其困难的数学问题有已知答案但未公开OpenAI的系统解决了其中5个。而Open Problems包含14个真正的开放问题连专业数学家都未能解决目前还没有AI能解决任何一个它们代表了数学研究的前沿难题。