整站优化昌吉可以吗?,高清图片素材网站免费,小说阅读网站怎么建设,wordpress 缩进 插件谷歌刚刚发布PaperBanana#xff1a;科研NanoBanana来了#xff01;谷歌PaperBanana替你搞定学术插图。 但代码和数据集两周内发布#xff0c;而且生成的学术插图不可修改。 西湖大学直接将自己的科研版NanoBanana开源了。 不仅自动化生成学术插图#xff0c;不满意还能编…谷歌刚刚发布PaperBanana科研NanoBanana来了谷歌PaperBanana替你搞定学术插图。但代码和数据集两周内发布而且生成的学术插图不可修改。西湖大学直接将自己的科研版NanoBanana开源了。不仅自动化生成学术插图不满意还能编辑。论文已经被顶会 ICLR 2026 接收。AutoFigure 像科学家一样先打草稿再精修直接产出能发顶会的专业插图。团队提出的 AutoFigure 框架也同样配套了 FigureBench 基准测试集。针对现有 AI 绘图模型无法理解长篇科学文献且难以保证结构准确性的痛点研究团队提出了一种理性渲染的新范式。通过将绘图过程拆解为逻辑规划和美学渲染两个阶段并引入多智能体协作与“擦除-修正”技术AutoFigure 成功实现了从万字长文到出版级科研插图的自动转化。其生成的图表在结构准确性和美观度上均超越了现有基准。理性渲染范式重构科学绘图流程将复杂的实验逻辑转化为直观、美观的机制图通常需要耗费数天时间还要兼具领域知识和设计审美。这是科研人员的痛。传统的文生图模型虽然能画出光影绚丽的图像但在面对需要严谨逻辑的科学插图时会产生幻觉画出错误的结构或乱码文字。另一派基于代码生成的方法虽然结构准确但产出的图表简陋得毫无美感可言。AutoFigure 引入了一个全新的概念理性渲染Reasoned Rendering。它把思考和绘画分离开来不急于生成最终的像素图像而是先构建一个符号化蓝图。整个流程被精妙地设计为三个阶段。在第一阶段AI 需要像人类科学家一样去阅读和理解。面对平均长度超过一万个 token 的长篇文献AutoFigure 并没有被海量的信息淹没它利用大语言模型进行概念提取将非结构化的文本提炼成结构化的节点和关系将抽象文字转化为拓扑结构。系统会生成一个包含 SVG 或 HTML 代码的符号布局通过代码精确控制每一个方框的位置、每一个箭头的指向。为了保证这个布局是合理的系统内部还上演了一出左右互搏的好戏。一个 AI 设计师负责出图另一个 AI 评论家负责挑刺指出对齐不对、重叠过多等问题经过几轮修改意见的反馈循环最终敲定一个结构严谨的蓝图。进入第二阶段风格化渲染开始接手。有了精确的骨架现在的任务是赋予它血肉。AutoFigure 利用图像生成模型以第一阶段确定的布局图为底稿结合论文的风格描述生成高分辨率的图像。这解决了传统方法中结构不可控的问题因为生成的图像必须严格遵循骨架的指引。但这里还有一个顽疾那就是现有的生成模型极其不擅长处理图片中的文字例如会把“Algorithm”拼成一串外星符号。为了解决文字模糊和拼写错误的问题第三阶段用了“擦除与修正”的策略。系统首先像做手术一样把生成图像中的乱码文字区域全部擦除留下干净的背景。接着利用 OCR 技术识别出文字原本应该所在的位置最后调用验证器将原文中正确的术语通过矢量字体的形式重新“印”回到图片上。这一套组合拳下来既保留了生成图像的细腻质感又确保了文字信息的绝对准确真正做到了图文并茂。高难度基准测试集在科学插图生成这个细分领域此前一直缺乏一个真正具有挑战性的基准测试集。过去的数据集要么是关注简短的图片说明要么是利用现有的元数据进行简单的重建完全无法模拟科研人员从零开始阅读长篇论文并构思配图的真实场景。为了填补这一空白研究团队耗费心力构建了 FigureBench。FigureBench 是首个针对长篇科学文本生成插图的大规模基准测试集。它在多样性和难度上设立了新的标杆。该数据集包含了 3,300 对高质量的“科学文本-插图”对涵盖了学术论文、综述文章、技术博客甚至教科书等多种文体。从表中可以看到学术论文类别的平均文本长度高达 12,732 个 tokenAI 必须拥有极强的长文本处理能力才能从洋洋洒洒的文字中提炼出核心逻辑。相比之下教科书Textbook的文本较短但其插图的教学性质要求更高的逻辑清晰度。文本密度Text Density平均达到了 41.2%说明这些图片不仅仅是装饰而是承载了大量的文本信息这对生成模型的文字渲染能力提出了地狱级的考验。研究团队并没有简单地通过脚本抓取而是使用了 GPT-5 辅助筛选并经过了两轮严格的人工校验。只有那些不仅视觉上合格而且每一处视觉元素都能在原文中找到明确对应描述的图表才有资格入选。对于测试集中的 300 个样本每一张图都经过了反复斟酌确保它们代表了当前科学可视化的最高标准。FigureBench 成为了检验 AI 科学家“视觉表达能力”的试金石。超越人类预期的表现为了公正地评估 AutoFigure 的能力研究团队设计了一套基于“多模态大模型作为裁判”VLM-as-a-judge的评估协议。关注图片画得好不好看更关注画得对不对。评分维度被细分为视觉设计、沟通效率和内容保真度三个大类涵盖了美学质量、逻辑流畅性、准确性等八个子指标。除了机器打分团队还进行了一项极具说服力的盲测直接找到论文的原作者让他们在不知道图片来源的情况下评价 AI 生成的配图。实验数据呈现出压倒性的优势。在所有四个文档类别中AutoFigure 的总分Overall均遥遥领先。特别是在教科书类别中AutoFigure 达到了惊人的 97.5% 的胜率。在绝大多数情况下比起其他 AI 方法用户认为 AutoFigure 生成的插图更完美。对比基线模型纯代码生成方法如 HTML-Code虽然准确度Accuracy尚可但美学评分Aesthetic惨不忍睹。而端到端的 GPT-Image 虽然画得像模像样但内容准确度极低经常“指鹿为马”。AutoFigure 则在两者之间找到了完美的平衡点既保持了高水平的逻辑准确性又具备了出版级的视觉美感。最令人振奋的反馈来自第一作者专家评估。当这套系统生成的图片被放到原论文作者面前时有高达 66.7% 的专家表示他们愿意直接使用 AutoFigure 生成的图片作为自己论文的正式插图。这个数据极具含金量因为它代表了最挑剔的用户的认可。在图中任务是绘制 InstructGPT 的原理图。原始的人类设计a清晰地展示了 SFT、RM 和 PPO 三个阶段。其他的基线方法要么把流程画成了一条细线b要么只捕捉到了模糊的流程而忽略了关键的标签c要么虽然结构对了但看起来像是初学者的练习作业d, e。只有 AutoFiguref不仅准确地还原了三个阶段的并行关系保持了清晰的层级结构还使用了语义准确的图标和排版甚至连颜色搭配都显得专业且和谐。它不仅是在画图更是在用视觉语言准确地传达科学思想。AI 终于能够像训练有素的科研人员一样产出既严谨又美观的科学插图为未来的 AI 科学家补上了至关重要的一块拼图。参考资料https://openreview.net/forum?id5N3z9JQJKqhttps://arxiv.org/pdf/2602.03828https://github.com/ResearAI/AutoFigurehttps://github.com/ResearAI/AutoFigure-Edit