购物网站模板下载,上海的外贸网站建设公司价格,企业网站如何部署,湛江论坛网OpenAI 刚刚发布了一篇极具实战价值的技术博客#xff0c;名为 Shell Skills Compaction: Tips for long-running agents that do real work 。这篇文章的核心观点非常直接#xff1a;我们正在从单轮对话的 Assistant 时代#xff0c;跨越到能持续运行数小时、…OpenAI 刚刚发布了一篇极具实战价值的技术博客名为Shell Skills Compaction: Tips for long-running agents that do real work。这篇文章的核心观点非常直接我们正在从单轮对话的 Assistant 时代跨越到能持续运行数小时、处理真实工作流的 Agent 时代。要实现这一跨越光靠 Prompt Engineering提示词工程已经不够了我们需要的是更系统化的System Engineering系统工程。OpenAI 提出了构建稳定 Agent 的三大核心原语Skills技能把复杂的任务拆解为可复用的、版本化的 SOP标准作业程序。Shell终端给 AI 一个真实的执行环境让它能安装依赖、运行代码、生成文件。Compaction压缩自动管理超长上下文让 Agent 能够“一直跑下去”而不爆内存。结合这三大原语OpenAI 总结了 10 条经过实战检验的“军规”。无论你是正在开发 AI 应用的工程师还是对 Agent 架构感兴趣的产品经理这些经验都价值连城。什么是“真正干活”的 Agent以前的 AI 助手更像是“聊天机器人”。你问它一个问题它回答你结束。现在的 Agent需要像一个真实员工一样工作不仅仅是回答而是去执行Execute。不仅仅是一次性交互而是连续数小时甚至数天的长程任务Long-running。不仅仅是处理文本而是处理文件、数据、代码并产出实际的工作成果Artifacts。为了支撑这种“重活”OpenAI 给出了全新的架构思路。核心三剑客Skills, Shell, Compaction1. SkillsAgent 的“技能包”不要把所有的 Prompt 都塞进 System Prompt 里那样不仅贵而且容易让模型“精神错乱”。Skills就像是给 Agent 安装的“驱动程序”或“技能书”。它是一个包含SKILL.md定义指令和相关文件的文件夹。只有当 Agent 觉得需要用某个技能时它才会去“加载”这个技能的详细说明。2. ShellAgent 的“工作台”光说不练假把式。Shell让 Agent 拥有了一个真实的 Linux 终端环境。它可以在里面安装 Python 库pip install。运行数据分析脚本。生成并保存文件如 Excel 报表、PDF 文档。这是 Agent 从“想”到“做”的关键一步。3. CompactionAgent 的“长期记忆”长任务最大的敌人是 Context Window上下文窗口限制。Compaction技术就像是定期整理大脑。当对话历史太长时它会自动在后台将前面的内容进行“摘要压缩”保留关键信息丢弃冗余细节。这样Agent 就能在有限的上下文空间里维持无限期的连续工作。OpenAI 的 10 条实战基于 Codex 和内部 Agent 的开发经验OpenAI 分享了以下 10 条避坑指南设计篇让 Agent 更聪明地选择1. 把 Skill 描述写成“路由逻辑”而不是“广告文案”Skill 的description字段是写给模型看的不是给用户看的。❌ 错误写法“这是一个强大的数据分析工具可以帮您洞察数据背后的秘密。”✅ 正确写法“当用户需要分析 CSV/Excel 文件或需要生成图表时使用此技能。不要在用户仅仅询问定义时使用。”技巧在描述里明确写上 **Use when...**什么时候用和 **Dont use when...**什么时候别用。2. 用“负面示例”防止误触发有时候 Agent 会过度积极地调用工具。解决办法是在 Prompt 或 Skill 定义中加入Negative Examples负面示例。Glean一家企业搜索公司在实战中发现加上“什么情况不调用”的示例后Agent 的误调用率降低了 20%3. 把模板和示例藏在 Skill 里不要在 System Prompt 里塞满各种 JSON 模板或 Few-shot 示例。把它们放进SKILL.md里。好处只有当这个 Skill 被选中时这些 tokens 才会被加载。平时不占用上下文既省钱又让主 Prompt 更清爽。执行篇让 Agent 更稳定地运行4. 长任务要“从一而终”对于长程任务确保 Agent 在同一步骤中复用同一个 Container容器。这样你在第一步安装的库、生成的中间文件/mnt/data在第十步还能找得到。配合 Compaction这是实现“多日任务”的基础。5. 该强硬时要强硬虽然我们希望 Agent 自主规划但在某些严格的业务流程中比如银行转账、审批流Determinism确定性比“聪明”更重要。如果必须按步骤走直接在 Prompt 里显式命令“Use theskill nameskill.” 不要让模型去猜。6. 开发环境与生产环境保持一致OpenAI 的 Shell 工具支持云端托管也支持本地运行Local Shell。最佳实践在本地开发调试Local因为它快且免费测试通了之后无缝迁移到云端Hosted享受稳定性和隔离性。保持 API 和 Skill 定义一致迁移就是一行配置的事。安全篇不要裸奔7. 网络访问要极其克制Skills Network High Risk。如果一个 Agent 既能执行代码又能随意访问互联网它就有可能泄露数据。原则默认关闭网络。如果必须开使用Allowlist白名单只允许访问特定的域名如api.stripe.com。8. 区分“组织级”和“请求级”白名单Org-level公司允许访问的所有域名池大圈。Request-level当前这个具体任务只需要访问的域名小圈。切记Request-level 的权限永远要是 Org-level 的子集。9. 绝不要把 API Key 写在 Prompt 里使用domain_secrets机制。在 Prompt 里只用占位符如$API_KEY真实的密钥由底层系统在发起请求时自动注入。这样模型本身永远不知道你的密码是什么。10. 用/mnt/data作为“交接区”Shell 里的文件系统是临时的但/mnt/data是持久化的在会话生命周期内。模式Tool 写文件到/mnt/data。Model 读取/mnt/data进行分析。User 最终从/mnt/data下载成果。这是最清晰的数据流转方式。One More Thing...OpenAI 还悄悄发布了一个重磅更新GPT-5.3-Codex-Spark。这是一个专为Real-time Coding实时编程设计的超快模型。极速体验它运行在Cerebras的晶圆级引擎Wafer Scale Engine 3上推理速度超过1000 tokens/秒定位它不是用来替代 GPT-5.3-Codex 这种“深思熟虑”的大模型的而是用来互补的。Codex-Spark负责实时的、交互式的代码修改指哪打哪几乎零延迟。**Codex (Standard)**负责复杂的、长程的架构设计和逻辑推理。OpenAI 正在构建一个“快慢结合”的未来在不久的将来你的 IDE 里会有一个极速的 Spark 随时响应你的微小修改而在后台有一个强大的 Agent 在默默地为你重构整个项目。总结Agent 开发正在从“玩具探索”走向“工业实战”。Shell 给它手Skills 给它脑Compaction 给它记忆而 Spark 给了它速度。热点推荐终于等到Draw.io 官方发布 MCP这体验丝滑得不像话Claude Code 写了个 250KB 的开源库真把 Node.js 搬进了浏览器炸裂Claude Opus 4.6 与 GPT-5.3 同日发布前端人的自动驾驶时刻到了尤雨溪最新爆料Vite 8 这一招太绝了版本迁移效率原地起飞Vue 核心团队出手Anthony Fu 发布 Skills 仓库斩获 3K StarAI 编程进入「官方投喂」时代Skills 乱麻了这款开源神器彻底终结噩梦Cursor/Claude 一键全同步