查询邮箱注册网站wordpress 个性主题
查询邮箱注册网站,wordpress 个性主题,学院 网站 两学一做,国外最大的设计网站北京大学与谷歌云AI研究团队联合推出了PaperBanana。五大智能体联手#xff0c;让AI画出NeurIPS级别的图表。PaperBanana给每位AI科学家配备了一个专属的设计团队#xff0c;学术插图将不再依赖人工手绘。它通过检索、规划、风格设计、绘图和自我修正五个步骤#xff0c;能够…北京大学与谷歌云AI研究团队联合推出了PaperBanana。五大智能体联手让AI画出NeurIPS级别的图表。PaperBanana给每位AI科学家配备了一个专属的设计团队学术插图将不再依赖人工手绘。它通过检索、规划、风格设计、绘图和自我修正五个步骤能够将枯燥的论文方法描述和标题转化为达到出版标准的精美图表。五个智能体分工协作现在的自主AI科学家已经能够独立阅读文献、构思创意甚至执行代码实验。但这些AI科学家对绘制学术插图仍然束手无策。学术插图的生成长期以来都是科研工作流中的瓶颈它要求内容的准确性还要求极高的审美标准。PaperBanana框架模拟了人类的设计工作室构建了一个由五个专业智能体组成的协作团队。这个团队的第一位成员是检索器Retriever Agent。当用户输入一段关于方法的文本描述和图表标题时检索器去翻阅参考图库。像一位经验丰富的图书管理员在庞大的数据库中寻找与当前任务最相似的参考案例。利用视觉语言大模型VLM的推理能力根据研究领域比如是讲Agent的还是讲视觉的以及图表类型是流程图还是架构图来筛选候选者。检索器会看视觉结构的相似性找出最相关的若干个例子作为后续工作的灵感来源。有了参考案例后规划师Planner Agent随即登场。规划师是整个系统的认知核心它接收源文本、意图以及检索器找来的参考图。通过从参考案例中进行上下文学习规划师将原本非结构化的长文本描述转化为一份详尽的、结构化的绘图计划。这一步非常关键因为它解决了从抽象概念到具体视觉元素转化的逻辑断层问题。规划师不会直接画图而是生成一份详细的文本描述告诉后面的团队这张图里应该有哪些模块模块之间的数据流向是怎样的箭头该怎么指。紧接着是造型师Stylist Agent。很多时候AI生成的图片之所以看起来不像学术插图是因为缺乏那种严谨、冷峻的学术风。造型师的作用就是担任设计顾问。由于很难用一句话定义什么是学术风格造型师会遍历整个参考图库自动总结出一份美学指南。这份指南涵盖了配色方案、形状容器、线条箭头样式、布局结构以及字体图标等关键维度。造型师拿着这份指南对规划师生成的描述进行润色和修饰确保最终生成的图在视觉上符合现代学术出版物的审美标准。第四位成员是视觉化师Visualizer Agent。它拿着经过造型师优化过的描述调用最先进的图像生成模型将文字转化为像素。在这个阶段文字描述变成了可视化的初稿。对于方法论图表它主要依赖图像生成模型而对于需要精确数值的统计图表它则会变身为程序员编写Python代码来绘制图表。最后一位也是最关键的一位成员是批评家Critic Agent。在初稿生成后批评家会介入。它拿着生成的图片和最原始的输入文本进行比对检查是否存在事实性错误、视觉故障或者遗漏的信息。批评家会生成具体的反馈意见并修改绘图描述。这个修改后的描述会再次交回给视觉化师进行重绘。这个“生成-批评-修正”的循环通常会进行三轮通过不断的自我反思和迭代消除幻觉修正细节直到产出一张高质量的学术插图。就像人类设计师不断修改草稿的过程极大地提高了最终成品的质量。严谨的绘图评估基准在学术插图生成这个新兴领域缺乏高质量的评估基准。研究团队构建了PaperBananaBench这是一个专门针对方法论图表生成的综合基准测试集。这个数据集的来源非常硬核全部取材于NeurIPS 2025的顶级会议论文。研究人员通过工具从这些论文中提取了方法论部分的文本描述以及对应的图表和标题确保了数据的真实性和高难度。数据的清洗过程相当讲究。原始抓取的几千篇论文中并非每一篇都适合作为测试用例。研究团队首先剔除了那些没有方法论图表的论文。随后他们对图表的长宽比进行了严格的筛选只保留长宽比在1.5到2.5之间的图片。这么做的原因很有趣因为方法论图表通常需要较宽的横向布局来展示逻辑流长宽比太小会显得拥挤而长宽比过大又会超出当前图像生成模型的能力范围。如果将这些极端比例的图包含进来在进行人机对比评估时很容易通过图片形状就暴露出哪张是人类画的从而引入评估偏差。为了更精细地分析生成能力研究团队还将收集到的图表分为了四个类别智能体与推理、视觉与感知、生成与学习、以及科学与应用。这种分类有助于观察模型在面对不同领域知识时的表现差异。最后经过人工的严格筛选和校验留下了584个高质量样本其中292个作为测试集另外292个作为参考集用于给检索器提供上下文学习的素材。这个基准测试集的建立为后续评估自动化绘图工具的性能提供了坚实的数据基础。评估图表的质量是一件非常主观的事情传统的指标在这里完全失效。研究团队采用了基于视觉语言大模型VLM作为裁判的评估方法。考虑到人类评估既昂贵又不可扩展他们验证了使用Gemini-3-Pro作为裁判的可靠性。评估分为四个维度忠实度、简洁性、可读性和美观度。忠实度考察生成的图是否准确反映了文本内容简洁性要求去除视觉杂乱突出核心信息可读性关注布局是否合理、文字是否清晰美观度则衡量是否符合学术规范。在评分时裁判模型会同时看到模型生成的图和人类绘制的原图并根据文本描述判断哪一张更好。这种基于参考的比较方法比单纯的打分更具鲁棒性。为了验证这种机器裁判的有效性研究人员进行了严谨的一致性测试。结果显示Gemini-3-Pro的评判结果与人类专家的评判具有很高的相关性这证明了用VLM来当裁判是可行的。这种自动化的评估流程使得大规模、标准化的图表质量测试成为可能也为未来的研究指明了评估方向。多项指标上超越现有基线研究团队在PaperBananaBench上进行了广泛的实验对比了PaperBanana与多种基线方法的表现。基线包括直接提示图像生成模型Vanilla、在提示中加入少样本示例Few-shot以及之前的相关工作Paper2Any。PaperBanana在所有评估维度上都显著优于基线模型。在忠实度上提升了2.8%在简洁性上更是大幅提升了37.2%可读性提升了12.9%美观度提升了6.6%。综合总分提升了17.0%。普通的图像生成模型如果不加引导往往会生成视觉上过于繁复、充满幻觉的图像或者文字渲染一塌糊涂。而PaperBanana通过造型师的风格约束和批评家的迭代修正能够精准地控制生成内容的细节。特别是简洁性的大幅提升说明造型师和批评家非常善于砍掉那些不必要的装饰让图表回归到“展示事实”这一核心原则上来。消融实验进一步揭示了每个智能体的贡献。当移除检索器时模型因为缺乏参考生成的描述变得冗长且缺乏重点导致简洁性和美观度大幅下降。当移除造型师和批评家时虽然忠实度可能稍微保持但简洁性和美观度都会受损。造型师的介入虽然极大地提升了美感但有时会因为过度追求极简而丢失少量细节信息这时候批评家的作用就显现出来了它能够在后续的迭代中把丢失的关键信息补回来在美观和忠实之间找到平衡点。PaperBanana在生成统计图表方面也表现出色。与方法论图表不同统计图表对数值的精确性要求极高哪怕一个数据点的偏差都是不可接受的。因此在处理统计图表时视觉化师不再依赖图像生成模型而是转而生成可执行的Python Matplotlib代码。实验显示这种策略在保持高美观度的同时极大地保证了数据的忠实度。相比之下直接用图像模型生成统计图虽然看起来很像那么回事但在数据密集的情况下容易出现数值幻觉或元素重复的问题。PaperBanana这种根据任务类型灵活切换“绘图”与“写代码”模式的能力展现了其强大的适应性。更有意思的是PaperBanana不仅能从零生成图表还能帮人类改图。研究人员尝试让PaperBanana根据其总结的美学指南对人类绘制的现有图表提出修改建议并重新绘制。结果发现经过PaperBanana润色后的图表在美观度上往往能战胜人类的原作。表明该框架中蕴含的设计知识已经达到甚至超过了一般科研人员的平均设计水平它不仅是一个生成工具更是一个潜在的图表美化助手。当然PaperBanana目前生成的结果本质上是光栅图像像素图而不是科研界更偏爱的矢量图。如果你放大看可能会看到像素锯齿而且后期编辑起来非常困难不像矢量图那样可以随意拖动节点。在处理极其细微的连接关系时比如箭头到底是连在这个框的左边还是下边它偶尔还是会犯迷糊这些细微的结构性错误有时候连批评家也没能揪出来。未来的研究方向可能会集中在生成可编辑的矢量图形以及进一步提升模型对细粒度视觉结构的感知能力上。参考资料https://dwzhu-pku.github.io/PaperBanana/https://arxiv.org/pdf/2601.23265https://github.com/dwzhu-pku/PaperBanana