站长之家工具,wordpress post属性,wordpress 信息录入,网站建设与管理专业人才调研本文介绍了构建高效大模型Agents系统的核心设计理念#xff0c;强调“实用优先、简洁可控、按需适配”。核心原则包括#xff1a;最小复杂度优先#xff0c;架构按需匹配#xff0c;模块化可组合#xff0c;透明可控为基#xff0c;人机协同赋能。推荐从简单的增强型LLM开…本文介绍了构建高效大模型Agents系统的核心设计理念强调“实用优先、简洁可控、按需适配”。核心原则包括最小复杂度优先架构按需匹配模块化可组合透明可控为基人机协同赋能。推荐从简单的增强型LLM开始逐步根据需求选择提示词链、路由、并行化等workflows模式或构建自主Agents。文章还提供了工具Prompt engineering的优化建议强调清晰、周全的工具设计对提升系统可靠性和可维护性的重要性。Anthropic:高效构建Agents设计理念High-level flow of a coding agent高效构建Agents的设计理念始终贯穿“实用优先、简洁可控、按需适配”的逻辑。1. 最小复杂度优先拒绝过度设计这是最核心的底层理念构建LLM相关系统时优先采用最简单的解决方案(如单次LLM调用检索/上下文示例)仅在简单方案无法满足性能需求时才逐步增加复杂度(如多步骤workflows、Agents)。本质是避免为追求“复杂先进”而牺牲效率始终权衡 latency、成本与任务性能的平衡不盲目堆砌功能或依赖复杂框架。2. 架构按需匹配不搞“一刀切”根据任务特性选择合适的智能Agents系统类型强调“架构适配场景”而非“技术驱动选择”对定义明确、需可预测性和一致性的任务采用预定义路径的“workflows”对开放式、需灵活性和模型动态决策的任务采用自主导向的“Agents”对无需多步骤协作的简单任务直接使用基础LLM能力不引入额外层级。3. 模块化可组合灵活适配需求核心构建逻辑是“基础块组合模式”以“增强型LLM”为统一基础构建块(扩展检索、工具、记忆功能)提供5类可复用、可组合的workflows模式(提示词链、路由、并行化等)开发者可根据具体场景拆分、组合而非使用固定的复杂框架模式本身无强制性允许根据需求定制调整避免“一套框架用到底”的僵化。4. 透明可控为基兼顾实用与可维护设计时优先保障系统的透明度和可维护性避免黑箱操作拒绝冗余抽象层优先直接使用LLM APIs即使使用框架也需理解底层逻辑减少调试障碍强调过程可见明确展示Agents的规划步骤工具设计需文档详尽、使用直观(如优化参数命名、提供示例)工具防呆设计通过规范格式(如绝对文件路径)、减少格式开销等方式降低模型使用工具的出错概率提升可靠性。5. 人机协同赋能可控范围内自主Agents的“自主性”并非无边界而是在“可控、可反馈”的框架内实现保留人类监督关键节点(如任务卡点、结果审核)允许人类介入支持反馈循环(如评估者-优化者模式)风险前置控制对自主Agents进行沙盒测试设置停止条件(如最大迭代次数)和护栏机制规避累积错误和高成本风险聚焦“人机互补”Agents承担重复操作、动态决策等任务人类负责标准定义、复杂审核等核心环节而非追求完全替代人类。构建高效的Agents细节发布时间2024年12月19日 00:00:00 Anthropic 工程团队 著我们与多个行业中构建大语言模型(LLM)Agents的团队展开了合作。实践表明最成功的实现方案往往采用简单、可组合的模式而非复杂的框架。在过去一年里我们与数十个来自不同行业、致力于构建大语言模型(LLM)Agents的团队进行了合作。始终不变的是最成功的实现方案并未依赖复杂框架或专用库而是基于简单、可组合的模式构建而成。在本文中我们将分享从与客户合作及自身构建Agents的过程中总结的经验并为开发者提供构建高效Agents的实用建议。什么是Agents“Agents”(Agent)的定义多种多样。部分客户将其定义为能够长期独立运行、借助各类工具完成复杂任务的全自主系统另一些客户则用该术语描述遵循预定义workflows的指令式实现方案。在 Anthropic我们将所有这些变体归类为Agents系统(agentic systems)但在架构上对workflows和Agents做出了重要区分workflows通过预定义的代码路径对 LLM 和工具进行编排的系统。Agents由 LLM 动态指导自身流程和工具使用自主掌控任务完成方式的系统。下文将详细探讨这两类Agents系统。在附录 1《实际应用中的Agents》中我们将介绍客户发现这类系统极具价值的两个领域。何时(以及何时不)使用Agents在基于 LLM 构建应用时我们建议优先选择最简单的解决方案仅在必要时增加复杂度——这可能意味着完全不构建Agents系统。Agents系统通常需要以延迟和成本为代价换取更好的任务性能你需要判断这种权衡是否合理。当确实需要更高复杂度时workflows适用于定义明确的任务能提供可预测性和一致性Agents则更适合需要大规模灵活性和模型驱动决策的场景。不过对于许多应用而言通过检索和上下文示例优化单次 LLM 调用通常就已足够。何时以及如何使用框架目前有许多框架可简化Agents系统的实现包括LangChain 推出的 LangGraphAmazon Bedrock 的 AI Agent 框架Rivet(一款拖拽式 GUI 界面的 LLMworkflows构建工具)Vellum(另一款用于构建和测试复杂workflows的 GUI 工具)。这些框架通过简化调用 LLM、定义和解析工具、串联调用等标准底层任务降低了入门门槛。但它们往往会增加额外的抽象层掩盖底层的提示词和响应导致调试难度加大同时也可能诱使开发者在简单方案已足够的情况下过度增加复杂度。我们建议开发者首先直接使用 LLM API许多模式仅需几行代码即可实现。如果确实需要使用框架请务必理解其底层代码——对底层逻辑的错误假设是客户常见的出错原因之一。可参考我们的示例代码集(cookbook)获取部分实现案例。构建Blocks、workflows与Agents本节将探讨我们在生产环境中观察到的Agents系统常见模式。我们将从基础构建块(增强型 LLM)开始逐步提升复杂度依次介绍简单的可组合workflows和自主Agents。构建Blocks增强型 LLMThe augmented LLMAgents系统的基本构建块是增强型 LLM——即通过检索、工具、记忆等增强功能扩展的 LLM。我们当前的模型能够主动运用这些能力生成自己的搜索查询、选择合适的工具并决定需要保留哪些信息。评估维度Claude 3.5 Sonnet(新版)Claude 3.5 HaikuClaude 3.5 SonnetGPT-4o*GPT-4o mini*Gemini 1.5 ProGemini 1.5 Flash研究生级推理 GPQA(钻石级)65.0% 零样本思维链41.6% 零样本思维链59.4% 零样本思维链53.6% 零样本思维链40.2% 零样本思维链59.1% 零样本思维链51.0% 零样本思维链本科级知识 MMLU Pro78.0% 零样本思维链65.0% 零样本思维链75.1% 零样本思维链--75.8% 零样本思维链67.3% 零样本思维链代码能力 HumanEval93.7% 零样本88.1% 零样本92.0% 零样本90.2% 零样本87.2% 零样本--数学问题解决 MATH78.3% 零样本思维链69.2% 零样本思维链71.1% 零样本思维链76.6% 零样本思维链70.2% 零样本思维链86.5% 四样本思维链77.9% 四样本思维链高中数学竞赛 AIME202416.0% 零样本思维链5.3% 零样本思维链9.6% 零样本思维链9.3% 零样本思维链---视觉问答 MMMU70.4% 零样本思维链-68.3% 零样本思维链69.1% 零样本思维链59.4% 零样本思维链65.9% 零样本思维链62.3% 零样本思维链Agents式编码 SWE-bench Verified49.0%40.6%33.4%----Agents式工具使用 TAU-bench零售 69.2% / 航空 46.0%零售 51.0% / 航空 22.8%零售 62.6% / 航空 36.0%----注我们的评估表格未包含 OpenAI 的 o1 模型系列因为该系列模型依赖大量预响应计算时间与典型模型存在本质差异导致性能对比缺乏参考意义。增强型 LLM 的实现建议建议重点关注两个核心实现要点根据具体用例定制这些增强功能为 LLM 提供简洁、文档完善的接口。虽然实现这些增强功能的方式多种多样但其中一种方案是通过我们最近推出的**模型上下文协议(Model Context Protocol)**——开发者仅需简单的客户端实现即可集成日益丰富的第三方工具生态。在本文后续内容中我们将默认每次 LLM 调用都可使用这些增强功能。workflows提示词链(Prompt Chaining)提示词链将任务分解为一系列步骤每个 LLM 调用都会处理前一个调用的输出结果。你可以在任意中间步骤添加程序化检查(见下图中的“gate/网关”)确保流程按预期推进。The prompt chaining workflow适用场景该workflows适用于可轻松、清晰地分解为固定子任务的场景。其核心目标是通过将每个 LLM 调用的任务简化以延迟换取更高的准确性。实用示例生成营销文案后将其翻译成其他语言先编写文档大纲检查大纲是否符合特定标准再根据大纲撰写完整文档。workflows路由(Routing)路由会对输入进行分类并将其导向专门的后续任务。该workflows支持关注点分离可构建更具针对性的提示词。若缺少这一workflows针对某类输入的优化可能会影响其他输入的处理性能。The routing workflow适用场景路由适用于以下复杂任务存在明显不同的分类且各分类更适合单独处理分类可通过 LLM 或更传统的分类模型/算法准确完成。实用示例将不同类型的客户服务查询(一般咨询、退款申请、技术支持)导向不同的下游流程、提示词和工具将简单/常见问题分配给 Claude 3.5 Haiku 等小型模型将复杂/特殊问题分配给 Claude 3.5 Sonnet 等更强大的模型以优化成本和速度。workflows并行化(Parallelization)LLM 有时可以同时处理某项任务并通过程序化方式聚合输出结果。这种并行化workflows主要有两种核心变体分段处理(Sectioning)将任务拆分为独立子任务并行执行投票机制(Voting)多次运行同一任务获取多样化输出。The parallelization workflow适用场景当拆分后的子任务可通过并行化提升速度或需要多视角、多次尝试以获得更高可信度的结果时并行化非常有效。对于涉及多方面考量的复杂任务LLM 通常在每个考量点由单独的 LLM 调用处理时表现更佳——这样可以让模型专注于每个具体方面。实用示例分段处理实现护栏机制(guardrails)一个模型实例处理用户查询另一个同时筛查不当内容或请求(这种方式通常比让单个 LLM 同时处理护栏和核心响应的效果更好)自动化评估 LLM 性能每个 LLM 调用评估模型在特定提示词下某一方面的表现。投票机制代码漏洞审查通过多个不同的提示词审查代码若发现问题则标记内容合规性评估通过多个提示词从不同维度评估内容是否违规并设置不同的投票阈值以平衡误报和漏报。workflows协调者-执行者(Orchestrator-workers)在协调者-执行者workflows中中央 LLM 会动态分解任务、将其委派给执行者 LLM并合成最终结果。适用场景该workflows适用于无法预测所需子任务的复杂任务(例如在编码场景中需要修改的文件数量和每个文件的修改内容往往取决于具体任务)。虽然在结构上与并行化类似但核心区别在于其灵活性——子任务并非预先定义而是由协调者根据具体输入动态确定。实用示例每次需要对多个文件进行复杂修改的编码产品需要从多个来源收集和分析相关信息的搜索任务。workflows评估者-优化者(Evaluator-optimizer)在评估者-优化者workflows中一个 LLM 调用生成响应另一个则通过循环提供评估和反馈。适用场景该workflows在以下情况下尤为有效存在明确的评估标准迭代优化能带来可量化的价值。判断是否适用的两个关键标志当人类明确表达反馈时LLM 的响应能得到显著改进LLM 本身能够提供此类有效反馈。这类似于人类作家创作精炼文档时的迭代写作过程。实用示例文学翻译译者 LLM 最初可能无法捕捉到某些细微差别但评估者 LLM 可以提供有用的批评建议复杂搜索任务需要多轮搜索和分析以收集全面信息评估者会判断是否需要进一步搜索。Agents随着 LLM 在核心能力(理解复杂输入、推理规划、可靠使用工具、从错误中恢复)上的成熟Agents已开始投入生产环境应用。Agents的workflows程通常如下接收人类用户的指令或通过互动讨论明确任务任务明确后自主规划并执行操作必要时向人类请求更多信息或判断执行过程中关键是Agents在每个步骤都能从环境中获取“真实数据”(如工具调用结果或代码执行情况)以评估进度Agents可在检查点或遇到障碍时暂停等待人类反馈任务通常在完成后终止但通常会设置停止条件(如最大迭代次数)以保持控制。Agents能够处理复杂任务但其实现往往并不复杂——通常只是 LLM 在循环中根据环境反馈使用工具。因此清晰、周全地设计工具集及其文档至关重要。我们在附录 2《工具的Prompt engineering》中详细阐述了工具开发的最佳实践。Autonomous agent适用场景Agents适用于以下情况开放式问题难以或无法预测所需步骤数量无法硬编码固定路径模型需进行多轮操作且你对其决策能力有一定信任度。Agents的自主性使其非常适合在可信环境中规模化处理任务。但同时自主性也意味着更高的成本和潜在的累积错误风险。我们建议在沙盒环境中进行充分测试并设置适当的护栏机制。实用示例(来自我们的自有实现)编码Agents解决 SWE-bench 任务(根据任务描述编辑多个文件)“计算机使用”参考实现Claude 通过操作计算机完成任务。High-level flow of a coding agent组合与定制这些模式这些构建块并非强制性规范而是开发者可根据不同用例调整和组合的常见模式。与所有 LLM 功能一样成功的关键在于衡量性能并迭代优化实现方案。再次强调仅当复杂度的增加能显著改善结果时才考虑添加。总结在 LLM 领域取得成功并非在于构建最复杂的系统而在于打造符合自身需求的系统。从简单提示词开始通过全面评估进行优化仅在简单解决方案无法满足需求时再添加多步骤Agents系统。在实现Agents时我们遵循三大核心原则保持Agents设计的简洁性优先保证透明度——明确展示Agents的规划步骤通过详尽的工具文档和测试精心设计Agents-计算机接口(ACI)。框架可以帮助你快速入门但在向生产环境迁移时不妨减少抽象层使用基础组件构建。遵循这些原则你将能够创建出不仅功能强大而且可靠、可维护且能获得用户信任的Agents。附录 1实际应用中的Agents我们与客户的合作发现AIAgents在以下两个应用场景中展现出了显著的实用价值充分体现了上述模式的价值。这两个场景的共同特点是任务既需要对话交流也需要实际操作、有明确的成功标准、支持反馈循环并且融入了有意义的人类监督。A. 客户支持客户支持将常见的聊天机器人界面与工具集成的增强功能相结合非常适合更开放式的Agents原因如下支持互动天然遵循对话流程同时需要访问外部信息和执行操作可集成工具以提取客户数据、订单历史和知识库文章退款发放、工单更新等操作可通过程序化方式处理成功与否可通过用户定义的解决方案完成度清晰衡量。已有多家公司通过基于使用量的定价模型(仅对成功解决的案例收费)验证了这种方法的可行性这也体现了他们对自身Agents有效性的信心。B. 编码Agents软件开发领域已展现出 LLM 功能的巨大潜力其能力从代码补全逐步演进到自主问题解决。Agents在此领域尤为有效原因如下代码解决方案可通过自动化测试验证Agents可利用测试结果作为反馈迭代优化解决方案问题空间定义明确、结构清晰输出质量可客观衡量。在我们的自有实现中Agents现已能够仅根据拉取请求(pull request)描述解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。不过尽管自动化测试有助于验证功能正确性但人类审核仍然至关重要——以确保解决方案符合更广泛的系统要求。附录 2工具的Prompt engineering无论你构建的是哪种Agents系统工具都可能是核心组成部分。工具通过在 API 中指定确切的结构和定义使 Claude 能够与外部服务和 API 交互。当 Claude 决定调用工具时会在 API 响应中包含工具使用块(tool use block)。工具的定义和规范应获得与整体提示词同等程度的Prompt engineering关注。在本附录中我们将介绍如何对工具进行Prompt engineering优化。同一操作通常有多种指定方式。例如文件编辑可通过编写差异(diff)或重写整个文件实现结构化输出可将代码嵌入 markdown 或 JSON 中。在软件工程中这些差异通常是表面的可无损转换但某些格式对 LLM 而言要困难得多编写差异需要在撰写新代码前准确知道代码块头部中需要修改的行数与 markdown 相比在 JSON 中嵌入代码需要额外对换行符和引号进行转义。工具格式选择建议给模型足够的tokens以“思考”避免其陷入思维僵局选择与模型在互联网文本中常见的格式相近的形式避免格式“开销”——例如无需精确统计数千行代码的数量或无需对编写的代码进行字符串转义。一个重要原则是如同投入大量精力设计人机交互(HCI)一样你也应投入同等精力打造优质的Agents-计算机接口(ACI)。以下是具体建议换位思考仅根据描述和参数是否能直观理解工具的使用方式还是需要仔细琢磨如果连你都需要思考那么模型很可能也会遇到困难。优秀的工具定义通常包含使用示例、边缘情况说明、输入格式要求以及与其他工具的明确边界优化参数命名和描述如何修改参数名称或描述使其更清晰易懂可将其视为为团队中的初级开发者编写完善的文档字符串(docstring)——尤其是在使用多个相似工具时这一点更为重要测试模型对工具的使用在我们的工作台(workbench)中运行大量示例输入观察模型会出现哪些错误并持续迭代优化防呆设计(Poka-yoke)调整参数设置降低模型出错的可能性。在为 SWE-bench 构建Agents时我们实际上在工具优化上投入的时间比整体提示词更多。例如我们发现当Agents移出根目录后会在使用相对文件路径的工具上出错。为解决这一问题我们修改了工具要求必须使用绝对文件路径——之后发现模型能够完美使用该工具。​最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​