网站换域名做301会有影响,宁津有培训做网站的,网站维护的重要性,济南做网站的哪家好Synthesizing Scientific Literature with Retrieval-Augmented Language Models摘要#xff1a; 斯坦福团队推出OpenScholar#xff0c;首个开源科学文献综合AI系统#xff0c;性能超越GPT-4o#xff0c;引文准确率媲美专家水平。阅读原文或https://t.zsxq.com/YgWBF获取原…Synthesizing Scientific Literature with Retrieval-Augmented Language Models摘要斯坦福团队推出OpenScholar首个开源科学文献综合AI系统性能超越GPT-4o引文准确率媲美专家水平。阅读原文或https://t.zsxq.com/YgWBF获取原文pdf引言科学文献综合的新时代科学进步依赖于研究人员综合日益增长的文献的能力。然而随着学术出版物的快速增长研究人员越来越难以保持信息更新。有效的知识综合需要精确检索、准确归因以及访问最新文献。大型语言模型LLMs虽然可以提供帮助但存在幻觉问题、预训练数据过时以及归因能力有限等缺陷 。在实验中当要求引用计算机科学和生物医学等领域的最新文献时GPT-4o在78-90%的情况下会捏造引用 。这一发现凸显了当前AI系统在科学文献综合任务中的重大局限性。为了解决准确、全面和透明的科学文献综合挑战来自华盛顿大学、艾伦人工智能研究所等机构的研究团队推出了OpenScholar——据我们所知这是首个专为科学研究任务设计的完全开源的检索增强语言模型 。OpenScholar开源科学文献综合系统系统架构与核心组件OpenScholar集成了领域专业化的数据存储OpenScholar DataStoreOSDS、自适应检索模块以及全新的自我反馈引导生成机制能够实现长文本输出的迭代优化 。OpenScholar DataStoreOSDS是一个完全开放、实时更新的语料库包含4500万篇科学论文和2.36亿个段落嵌入为训练和推理提供了可复现的基础 。这一数据规模在开源科学文献系统中处于领先地位。OpenScholar的工作流程包括使用训练好的检索器和重排序器从OSDS中检索相关内容生成带有引用的回答通过自我反馈循环迭代优化以提高事实性、覆盖度和引用准确性值得注意的是这一流程同样用于生成高质量的合成数据使得无需依赖专有LM即可训练紧凑的8B模型OpenScholar-8B和检索器 。自我反馈机制OpenScholar的创新之处在于其自我反馈推理循环。系统首先生成初始草稿然后进行自我评估和反馈基于反馈进行迭代改进。这一过程可以重复多次每次迭代都会产生新的草稿和反馈直到达到满意的质量标准 。这种机制使OpenScholar能够识别并修正引用错误增强内容覆盖度提高答案的连贯性和组织性确保事实准确性ScholarQABench首个多学科文献综合基准基准设计为了评估OpenScholar研究团队开发了ScholarQABench——据我们所知这是首个用于开放式科学综合的多学科基准 。与以往专注于短文本输出、多项选择格式或领域推理任务的基准不同ScholarQABench要求生成基于众多论文最新文献的长文本回答 。该基准包括3000个研究问题250个专家撰写的答案涵盖计算机科学、物理学、生物医学和神经科学四大领域由经验丰富的博士生和博士后撰写反映真实世界的文献综述实践评估协议为了克服评估长文本、综合性回答的困难ScholarQABench引入了严格的评估协议结合了自动指标例如引用准确性人工基于评分标准的评估评估覆盖度、连贯性、写作质量和事实正确性专家分析表明所提出的多维评估管道与专家判断达成高度一致能够可靠地捕捉长文本科学答案中的覆盖度、连贯性、写作质量和事实正确性 。性能评估超越GPT-4o和专家水平自动评估结果研究团队在ScholarQABench上评估了专有和开源模型例如GPT-4o、Llama 3.1 8B和70B以及专门化系统如PaperQA2 。关键发现准确性对比Scholar-CS子集100个问题OpenScholar-GPT-4o57%OpenScholar-8B51%GPT-4o45%PaperQA240%Perplexity40%引用准确性OpenScholar-8B43%OpenScholar-GPT-4o37%PaperQA241%Perplexity20%GPT-4o仅1%尽管GPT-4o展现出强大的整体性能但在引用准确性和覆盖度方面表现不佳经常产生不准确或不存在的引用 。OpenScholar在仅使用LM和检索增强管道方面均优于其他系统。特别值得注意的是使用完全开源检查点的OpenScholar-8B超越了基于专有LM构建的PaperQA2以及Perplexity Pro等生产系统分别实现了6%和10%的改进。此外OpenScholar管道可以增强现成的LM。例如当使用GPT-4o作为底层模型时OpenScholar-GPT-4o在正确性方面比单独使用GPT-4o提高了12%。人工评估结果研究团队进行了大规模人工评估由16位拥有博士学位的专家对108个问题进行评估 。人工评估关键发现与专家答案的配对比较专家更倾向于OpenScholar-GPT-4o70%专家更倾向于OpenScholar-8B51%专家更倾向于GPT-4o仅32%有用性三向分类OpenScholar-8B和OpenScholar-GPT-4o在有用性评估中表现优异与人类专家答案相当。尽管专家人类表现超过GPT-4o和其他竞争基线OpenScholar系统在答案正确性和引用准确性方面与专家人类持平或超越 。这一发现表明AI辅助的科学文献综合已经达到了可以实际应用的水平。成本效益分析OpenScholar使用更小、更高效的检索器大幅降低了成本 。这对于需要大规模文献检索和综合的研究机构和企业而言具有重要的实际意义 。核心技术优势广泛的评估表明OpenScholar核心组件的重要性包括重排序Reranking提高检索结果的相关性自我反馈Self-feedback迭代改进答案质量专业化数据存储提供领域特定的知识基础这些组件的协同作用使OpenScholar能够显著减少引用幻觉提高答案的覆盖度和深度保持引用的准确性和可追溯性生成更加连贯和有组织的长文本回答实际应用与影响用户采用情况OpenScholar的公开演示已吸引了来自不同科学学科的超过30,000名用户。这一广泛的用户基础表明该系统在实际科研工作中具有显著的应用价值。开源贡献为了支持和加速未来的研究工作研究团队开源了OpenScholar代码数据和模型检查点数据存储OSDSScholarQABench基准公开演示平台这一全面的开源策略将促进科学文献综合领域的快速发展使更多研究人员和机构能够基于OpenScholar进行创新 。局限性与未来方向当前局限性研究团队坦诚指出了几个重要的局限性 不能完全自动化OpenScholar不能完全自动化科学文献综合。人类专家的判断和批判性思维仍然是科学研究不可或缺的部分 。需要持续改进尽管性能优异系统在某些复杂场景下仍有改进空间 。未来研究方向未来工作可以通过以下方式进一步改进OpenScholar 整合用户反馈利用平台收集的用户反馈增强检索质量提高引用准确性进一步减少引用错误优化整体可用性改善用户体验和系统响应速度此外未来可以探索扩展到更多科学领域支持多语言文献综合集成实时文献更新机制增强跨学科知识综合能力结论科学文献综合的新里程碑OpenScholar和ScholarQABench的推出代表了LM基础系统在帮助科学家应对科学文献综述这一复杂且不断增长的任务方面的重大进展 。主要贡献总结首个完全开源的检索增强系统使用开放权重LLM和训练的检索模型迭代优化科学输出解决幻觉和引用准确性等挑战大规模标准化基准ScholarQABench为多个科学领域的文献综述自动化提供了标准化评估方法超越现有系统OpenScholar在ScholarQABench评估中表现出色超越GPT-4o和并行的专有系统PaperQA2超越专家水平跨三个科学学科的专家评估显示OpenScholar生成的答案比需要每个注释花费一小时的专家注释者生成的答案更有帮助OpenScholar为科学研究社区提供了一个强大、透明且可访问的工具有望显著提高文献综述的效率和质量加速科学发现的步伐。