网站建设报价明细模板,东莞app培训网站建设,项目计划书ppt,下载的asp网站怎么打开2026 年 2 月 12 日#xff0c;智谱最新旗舰模型 GLM-5 正式开源#xff0c;此次 GLM-5 模型一经开源发布#xff0c;昇腾 AI 基础软硬件即实现 0day 适配#xff0c;为该模型的推理部署和训练复现提供全流程支持#xff0c;相关模型与权重现已同步上线 AtomGit AI。 学界…2026 年 2 月 12 日智谱最新旗舰模型 GLM-5 正式开源此次 GLM-5 模型一经开源发布昇腾 AI 基础软硬件即实现 0day 适配为该模型的推理部署和训练复现提供全流程支持相关模型与权重现已同步上线 AtomGit AI。学界与业界正逐渐形成一种共识大模型从写代码、写前端进化到写工程、完成大任务即从Vibe Coding变革为Agentic Engineering。GLM-5 是这一变革的产物在Coding 与Agent 能力上GLM-5 取得开源 SOTA表现在真实编程场景的使用体感逼近 Claude Opus 4.5擅长复杂系统工程与长程 Agent 任务。在全球权威的 Artificial Analysis 榜单中GLM-5 位居全球前四、开源第一。一、更大基座更强智能GLM-5 全新基座为从写代码到写工程的能力演进提供了坚实基础参数规模扩展从 355B激活 32B扩展至 744B激活 40B预训练数据从 23T 提升至 28.5T更大规模的预训练算力显著提升了模型的通用智能水平。异步强化学习构建全新的 Slime 框架、支持更大模型规模及更复杂的强化学习任务提升强化学习后训练流程效率;提出异步智能体强化学习算法使模型能够持续从长程交互中学习充分激发预训练模型的潜力。稀疏注意力机制首次集成 DeepSeek Sparse Attention在维持长文本效果无损的同时大幅降低模型部署成本提升 Token Efficiency。二、Coding 能力对齐 Claude Opus 4.5GLM-5 在编程能力上实现了对齐 Claude Opus 4.5在业内公认的主流基准测试中取得开源模型 SOTA。在 SWEbench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数性能超过 Gemini3 Pro。三、Agent 能力SOTA 级长程任务执行GLM-5 在 Agent 能力上实现开源 SOTA在多个评测基准中取得开源第一。在 BrowseComp联网检索与信息理解、MCP-Atlas大规模端到端工具调用和 τ²-Bench复杂场景下自动代理的工具规划和执行均取得最高表现。四、Agentic Engineering 典型场景场景一端到端应用开发在 OpenRouter 匿名Pony上线后许多开发者使用 GLM-5 完成了真正能用、能玩、能上线的应用。开发者们用 GLM-5 制作出了横版解谜游戏、Agent 交互世界、论文版“抖音”等应用这些应用已开放下载或已提交商店审核详情可关注 GLM-5 案例库showcase.z.ai。这些案例展示了 GLM-5 在复杂系统工程中端到端交付可部署产品的能力。场景二通用 Agent 助手GLM-5 较强的 Agentic 工具调用能力使其成为通用 Agent 助手的理想基座模型。在 OpenClaw 中接入 GLM-5用户可以拥有一个智能的实习生帮你搜索网站、定时整理资讯、发布推文、编程等。团队推出了 AutoGLM 版本的 OpenClaw支持官网一键完成 OpenClaw 与飞书机器人的一体化配置帮助用户从数小时缩短到几分钟极速部署专属 7×24 小时智能助手。场景三Z Code 全流程编程当 GLM-5 进化到能跑完整个闭环编程工具也需要以此为核心重构。为此团队推出 Z Code。用户只需把需求说清楚模型会自动拆解任务多智能体并发完成代码、跑命令、调试、预览和提交等开发全流程。在 Z Code 上用户甚至可以用手机远程指挥桌面端 Agent解决以往需要很久的工程任务。值得一提的是Z Code 也是全程由 GLM 模型参与开发完成。场景四办公文档直接输出GLM-5 拥有更强大的复杂系统工程和长程智能体能力可将文本或素材直接转换为 .docx、.pdf 和 .xlsx 文件。在 Z.ai 和智谱清言上用户可以让 GLM-5 直接输出产品需求文档、教案、试卷、电子表格、财务报告、流程表、菜单等文档。五、基于昇腾部署模型指导目前业界主流推理引擎 vLLM-Ascend、SGLang 和 xLLM 已支持高效部署以下为基于 vLLM-Ascend 部署推理 GLM-5 模型步骤模型权重GLM-5BF16 版本https://ai.atomgit.com/zai-org/GLM-5GLM-5-w4a8无 mtp 的量化版本https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8可使用http:// https://atomgit.com/Ascend/msmodelslim 对模型进行基础量化。建议将模型权重下载至多节点共享目录例如 /root/.cache/ 。以下为在 Altlas 800T A3 机型上使用 vLLM-Ascend:GLM 5 版本部署该模型。环境准备# 根据您的设备更新 --deviceAtlas A3/dev/davinci[0-15]。 # 根据您的环境更新 vllm-ascend 镜像。 # 注意您需要提前将权重下载至 /root/.cache。 # 更新 vllm-ascend 镜像alm5-a3 可替换为glm5;glm5-openeuler;glm5-a3-openeuler export IMAGEm.daocloud.io/quay.io/ascend/vllm-ascend:glm5-a3 export NAMEvllm-ascend # 使用定义的变量运行容器 # 注意若使用 Docker 桥接网络请提前开放可供多节点通信的端口 docker run --rm \ --name $NAME \ --nethost \ --shm-size1g \ --device /dev/davinci0 \ --device /dev/davinci1 \ --device /dev/davinci2 \ --device /dev/davinci3 \ --device /dev/davinci4 \ --device /dev/davinci5 \ --device /dev/davinci6 \ --device /dev/davinci7 \ --device /dev/davinci8 \ --device /dev/davinci9 \ --device /dev/davinci10 \ --device /dev/davinci11 \ --device /dev/davinci12 \ --device /dev/davinci13 \ --device /dev/davinci14 \ --device /dev/davinci15 \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -it $IMAGE bash此外如果您不希望使用上述 Docker 镜像也可通过源码完整构建从源码安装 vllm-ascend 请参考具体安装指南要对 GLM-5 进行推理您需要将 vllm、vllm-ascend、transformers 升级至主分支# 升级 vllm git clone https://atomgit.com/GitHub_Trending/vl/vllm.git cd vllm git checkout 978a37c82387ce4a40aaadddcdbaf4a06fc4d590 VLLM_TARGET_DEVICEempty pip install -v . # 升级 vllm-ascend git clone https://atomgit.com/gh_mirrors/vl/vllm-ascend.git cd vllm-ascend git checkout ff3a50d011dcbea08f87ebed69ff1bf156dbb01e git submodule update --init --recursive pip install -v . # 重新安装 transformers pip install githttps://atomgit.com/GitHub_Trending/tra/transformers.git部署1.单节点部署A3 系列量化模型 glm-5-w4a8 可部署于单台 Atlas 800 A3128G × 8。执行以下脚本进行在线推理。export HCCL_OP_EXPANSION_MODEAIV export OMP_PROC_BINDfalse export OMP_NUM_THREADS10 export VLLM_USE_V11 export HCCL_BUFFSIZE200 export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True export VLLM_ASCEND_BALANCE_SCHEDULING1 vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-w4a8 \ --host 0.0.0.0 \ --port 8077 \ --data-parallel-size 1 \ --tensor-parallel-size 16 \ --enable-expert-parallel \ --seed 1024 \ --served-model-name glm-5 \ --max-num-seqs 8 \ --max-model-len 66600 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --gpu-memory-utilization 0.95 \ --quantization ascend \ --enable-chunked-prefill \ --enable-prefix-caching \ --async-scheduling \ --additional-config {multistream_overlap_shared_expert:true} \ --compilation-config {cudagraph_mode: FULL_DECODE_ONLY} \ --speculative-config {num_speculative_tokens: 3, method: deepseek_mtp}注意参数说明如下对于单节点部署低延迟场景下推荐使用 dp1tp16 并关闭专家并行。--async-scheduling 异步调度是一种优化推理效率的技术允许非阻塞的任务调度以提高并发性和吞吐量尤其在处理大规模模型时效果明显。2.多节点部署A3 系列glm-5-bf16 至少需要 2 台 Atlas 800 A3128G × 8。在两台节点上分别执行以下脚本。节点 0# 通过 ifconfig 获取本机信息 # nic_name 为当前节点 local_ip 对应的网卡接口名称 nic_namexxx local_ipxxx # node0_ip 的值必须与节点0主节点中设置的 local_ip 一致 node0_ipxxxx export HCCL_OP_EXPANSION_MODEAIV export HCCL_IF_IP$local_ip export GLOO_SOCKET_IFNAME$nic_name export TP_SOCKET_IFNAME$nic_name export HCCL_SOCKET_IFNAME$nic_name export OMP_PROC_BINDfalse export OMP_NUM_THREADS10 export VLLM_USE_V11 export HCCL_BUFFSIZE200 export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-address $node0_ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config {cudagraph_mode: FULL_DECODE_ONLY} \ --speculative-config {num_speculative_tokens: 3, method: deepseek_mtp}节点 1# 通过 ifconfig 获取本机信息 # nic_name 为当前节点 local_ip 对应的网卡接口名称 nic_namexxx local_ipxxx # node0_ip 的值必须与节点0主节点中设置的 local_ip 一致 node0_ipxxxx export HCCL_OP_EXPANSION_MODEAIV export HCCL_IF_IP$local_ip export GLOO_SOCKET_IFNAME$nic_name export TP_SOCKET_IFNAME$nic_name export HCCL_SOCKET_IFNAME$nic_name export OMP_PROC_BINDfalse export OMP_NUM_THREADS10 export VLLM_USE_V11 export HCCL_BUFFSIZE200 export PYTORCH_NPU_ALLOC_CONFexpandable_segments:True vllm serve /root/.cache/modelscope/hub/models/vllm-ascend/GLM5-bf16 \ --host 0.0.0.0 \ --port 8077 \ --headless \ --data-parallel-size 2 \ --data-parallel-size-local 1 \ --data-parallel-start-rank 1 \ --data-parallel-address $node0_ip \ --data-parallel-rpc-port 12890 \ --tensor-parallel-size 16 \ --seed 1024 \ --served-model-name glm-5 \ --enable-expert-parallel \ --max-num-seqs 16 \ --max-model-len 8192 \ --max-num-batched-tokens 4096 \ --trust-remote-code \ --no-enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --compilation-config {cudagraph_mode: FULL_DECODE_ONLY} \ --speculative-config {num_speculative_tokens: 3, method: deepseek_mtp} 推理部署https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md精度评估使用 AISBench详细步骤请参阅 https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/evaluation/using_ais_bench.html进行精度评估。执行后即可获得评估结果。基于昇腾实现 GLM-5 的训练复现GLM-5 采用了 DeepSeek Sparse AttentionDSA架构针对 DSA 训练场景昇腾团队设计并实现了昇腾亲和融合算子从两方面进行优化一是优化 Lightning Indexer Loss 计算阶段的内存占用二是利用昇腾 Cube 和 Vector 单元的流水并行来进一步提升计算效率。 更多内容详见 Mindspeed Atomgit 代码仓https://atomgit.com/Ascend/MindSpeed-LLM/tree/master/examples/mcore/glm5