网站开发项目工期流程宁夏网站开发设计说明书
网站开发项目工期流程,宁夏网站开发设计说明书,东莞网站排名价格,外贸资源网他没博士、没论文#xff0c;却靠公开改进论文和跑基准测试#xff0c;直接打动大佬、入职OpenAI#xff01;Noam Brown亲证#xff1a;行动力和开源项目#xff0c;才是逆袭顶级AI实验室的真正通行证。最近#xff0c;OpenAI传奇研究员 、德扑AI之父Noam Brown的一篇文章…他没博士、没论文却靠公开改进论文和跑基准测试直接打动大佬、入职OpenAINoam Brown亲证行动力和开源项目才是逆袭顶级AI实验室的真正通行证。最近OpenAI传奇研究员 、德扑AI之父Noam Brown的一篇文章被刷屏了。没有博士学位没有研究背景是否有可能在顶尖AI实验室找到工作这听起来像天方夜谭但这个世界上奇妙的地方就在于这样的例子还真不少。比如一个叫Keller Jordan的小哥仅仅凭借一篇开源博客就成功入职OpenAI成为一名机器学习研究员是的他没有写论文而是将完整的研究过程、代码和实验结果在GitHub上完全开源。最后Noam Brown总结道虽然如今开放研究的空间比以前小了但是在已有论文的基础上做改进依然是一个向实验室研究员证明自己能力的绝佳方式这种做法也会让对方更有信心为你争取到一次面试机会。从AI审核做起走向人生巅峰2020年Keller毕业于UCSD获得数学和计算机的双学士学位。毕业时他从未发表过任何一篇论文。第一份工作 是在一家人工智能内容审核初创公司。有一天他看到谷歌研究大牛Behnam最近发表的一篇论文想到了一个改进思路于是给Behnam发了一封邮件。Behnam看到邮件后同意指导这个年轻人。在没有人脉、没有背景的情况下小哥就这样和大佬搭上了线。更神奇的来了这段合作最终促成了一篇ICLR论文。再后来Keller的一项表现亮眼的工作「NanoGPT speed run」直接改变了全新的研究范式这不仅让特斯拉AI负责人Karpathy称赞不已还引起了OpenAI的注意。这不是一篇传统意义上的论文却成为Keller命运的转折点。因为他所有的工作都有完整记录而且成果可量化、进展清晰所以OpenAI毫不犹豫地向他伸出了橄榄枝。让Karpathy直呼「干得漂亮」NanoGPT是Karpathy开源的一个项目是一个极简的轻量级GPT训练和微调框架。而Keller喜欢干的一件事就是不断刷新NanoGPT的训练速度。为此他不断尝试新的方法。在2024年10月他跑出了一个成果将训练Transformer模型的token效率提高了3.8倍这也让他直接赢得Karpathy的盛赞。NanoGPT speedrun的目标听起来非常简单在固定模型规模124M Transformer和固定验证集损失目标3.28 val loss的前提下用尽可能少的token、尽可能短的时间完成训练。Keller所做的就是基于Karpathy的nanoGPT/llm.c PyTorch训练代码将其改造为一个可复现、可量化、可对比的基准。最终他让Token效率提升了3.8倍而且从原本约10B tokens降低到2.7B tokens即可达到目标loss。这意味着这个改进可以被严格验证是一个硬指标。让实验便宜到「人人能参与」而且Keller还非常有独创性。与很多动辄需要数十万、上百万算力成本的训练不同他在设计这个speedrun时有一个非常明确的原则让尝试新想法的成本足够低。为此他刻意做了几件事比如让代码压缩到极简只有537行在8×H100的全新环境下让安装和运行的时间仅为20分钟甚至单次的尝试成本低至8美元。即使在今天的AI研究环境中这也是一个极其罕见的设计选择。这就意味着从此不是只有大实验室才能参与所有个人研究者、学生、独立工程师都能快速验证想法创新不会再被算力门槛挡住。被OpenAI注意到就这样NanoGPT speedrun成为了Keller逆袭之路上的关键一环。一切都表明这个成果非常硬代码、日志、实验都完全可复现在指标上完全无法作弊甚至还有开发社区的真实参与。甚至连验证方式都被设计得极其严谨每一次speedrun的log文件中都会包含完整代码副本。任何人想复现一个新纪录只需调用log文件即可。Muon横空出世而接下来整件事情发展到了高潮。在2024年底他设计的神经网络隐藏层的优化器Muon横空出世直接凭卓越性能刷新了NanoGPT和CIFAR-10训练速度的世界纪录Muon是一种为神经网络2D参数隐藏层设计的优化器。它的核心思想是SGD-动量法SGD-momentum生成的更新矩阵通过Newton-Schulz迭代进行正交化处理生成接近于半正交矩阵的更新从而提升训练效率。它的实现简单高效支持在bf16精度下稳定运行显著降低了计算开销。比起AdamW优化器Muon在多个任务中表现非常惊艳。虽然AdamW能让GPT、LLaMA、Qwen学得又稳又快但随着模型参数从几亿增加到几千亿训练时间从几天变成几周甚至几个月AdamW的局限性开始显现。虽然还未成为主流通用优化器但Muon的出现表明它很可能是AI模型训练领域的一次重大基础创新。入职OpenAIMuon在开发者社区的影响力越来越大也就在同时Keller于2024年12月正式加入OpenAI。有趣的是Keller在2月份表示虽然Muon火了也帮他进入了OpenAI但是他不会给Muon写一篇论文。在他看来与其在arXiv发一篇大概率被「淹没」的论文还不如继续老老实实地研究自己的优化器。毕竟在他看来大多数优化器论文都是虚假的水文。这些人都成功逆袭大公司此外Noam Brown还列举了其他成功的案例。比如被谷歌DeepMind发掘的Sholto Douglas。他在X上十分低调从未以一作身份发表过任何引人注目的论文入行时间也只有一年半然而他却是Gemini成功的背后关键人物。还在麦肯锡工作时Sholto就逐渐确信AI会迎来爆发于是开始在业余时间做自己的项目还在Jax的GitHub上提出不少有洞见的问题。这些表现打动了James Bradbury最终被邀请到谷歌DeepMind去面试。Andy Jones是一位半退休的量化分析师在测试时计算还没火起来之前他就写了一篇论文毕竟了比较了扩大预训练规模和扩大测试时计算量的影响。这篇论文让人印象极其深刻并是因为刷新了某个基准而是做出了非常聪明的设计选择自己编写了GPU加速的环境并且进行了严谨细致的消融实验。最终Andy Jones入职Anthropic。