南宁哪个网络公司建网站好,山东做公司网站,住房和建设建设局网站,网站建设交流发言从大家用来训练 LoRA 适配器的 RTX 3/4/590#xff0c;到驱动#xff08;并仍在驱动#xff09;大语言模型集群的 H100#xff0c;再到专为大规模生成式 AI 训练与推理而进入数据中心的全新 Blackwell B100 芯片 —— GPU 的选择和配置参数可谓五花八门。 大多数 AI 工程师…从大家用来训练 LoRA 适配器的 RTX 3/4/590到驱动并仍在驱动大语言模型集群的 H100再到专为大规模生成式 AI 训练与推理而进入数据中心的全新 Blackwell B100 芯片 —— GPU 的选择和配置参数可谓五花八门。大多数 AI 工程师都将 NVIDIA GPU 作为其 AI 工作负载的计算平台。不过很多人只知道 GPU 叫什么名字却不知道要让一个 AI 系统真正跑起来部署上线到底需要搞懂哪些关键的门道。从大家用来训练 LoRA 适配器的 RTX 3/4/590到驱动并仍在驱动大语言模型集群的 H100再到专为大规模生成式 AI 训练与推理而进入数据中心的全新 Blackwell B100 芯片 —— GPU 的选择和配置参数可谓五花八门。但仅仅知道 GPU 的名字并不能告诉你最关键的一点GPU 并不是单一、不可分割的整体产品。它是由多个相互关联的技术模块或子系统组成的复杂系统一种微架构例如 Pascal、Ampere、Hopper、Blackwell它定义了芯片的底层特性包括支持哪些精度格式、具备哪些张量运算能力等一套内存子系统它决定了模型权重和激活值的传输速度一种封装形式与互连方式PCIe、SXM、NVLink决定了多块 GPU 能否在充分发挥各自性能的同时协同扩展。本指南将从 AI 工程师的视角出发拆解 NVIDIA GPU 产品线的内在逻辑某种架构具体带来了哪些实际的 AI 计算能力内存子系统与互联方案如何限制或赋能 AI 工作负载消费级 GPU 与数据中心级 GPU 除了价格和营销之外究竟有何本质区别我的第一块 GPU我的第一块 GPU 是 NVIDIA 7300GT配备有 256MB 显存和 128 位显存总线。如今就连一台微波炉的算力都比它强。2008 年我外祖母给我买了人生第一台台式电脑这块显卡就装在那台机器里。记得当时我试图在电脑上运行《侠盗猎车手4》Grand Theft Auto 4结果游戏根本启动不了 —— 我猜可能连渲染 Rockstar Games 的 Logo 第一帧对这块小家伙来说都太吃力了。我还记得我曾试图努力说服父母给我买一块 NVIDIA 9500GT因为有个朋友用的就是这款他的电脑能在 1280x1024 分辨率下以高画质流畅运行那款游戏。但这完全超出了当时家里的经济承受能力。你能想象后来我一有机会就泡在他家里玩游戏。最终经过各种折腾我终于在自己的电脑上以 340x280 分辨率、全部最低画质勉强能玩一会儿了。我还记得自己进入 Windows/ProgramFiles 目录修改游戏的 .ini 配置文件尝试调整 DirectX 9.0 设置关掉能找到的每一项图形特效 —— 全靠当时能找到的每一篇教程指导。而那时我用的是拨号上网网速只有 40kb/s加载一页文字或一段视频常常要等好几分钟。游戏画面大概像下图这样但像素更模糊帧数最高只有 12-13 FPS显卡风扇在 70-80 摄氏度高温下疯狂运转。不过嘛好歹能玩了 :)图 1. 《GTA 4》在NVIDIA GT7300上的运行效果10FPS/最低画质/英特尔酷睿i5/8GB内存。来源YouTube 视频截图有意思的是正是从那时起我开始接触到 NVIDIA SLI、不同的 GPU 系列、显存、内存这些概念。虽然当时我并不真正理解这些是什么也并不想深究 —— 我唯一的念头就是让这款全校同学都在聊的游戏在我的电脑上跑起来好让我也能加入那个“圈子”。回到现在我们甚至可以直接在手机上流畅运行画质远胜当年的游戏轻松达到 30 FPS还不怎么耗电。我想通过这段经历传达的是GPUs、图形处理技术、超级计算机、AI 计算乃至整个科技领域已经走了非常非常远。如今的计算设备不仅更快、更强、更节能而且比以往任何时候都更便宜。深度学习始于两块 GTX 550在最近一期的 Joe Rogan 播客节目中[1]黄仁勋提到了一段如今容易被遗忘的深度学习历史。2012 年Alex Krizhevsky 和 Ilya Sutskever 训练了 AlexNet这个图像分类模型一举击败了当时所有主流的计算机视觉算法。图 2. 近期 Joe Rogan 播客节目的截图嘉宾为 NVIDIA 首席执行官黄仁勋。他们就用了 2 张 NVIDIA GTX 580 游戏显卡每张配备 3 GB显存就实现了快速卷积运算这便是他们当时的全部配置。他们开源的 cuda-convnet[2] 非常优秀以至于在随后数年间成为行业标准推动了深度学习爆发初期的头几年发展。2012 年的这次成功也暗示了一点AI 的进步将极度依赖 GPU 硬件。但是硬件只占一半。如果你今天在编写或部署现代 AI 模型几乎可以肯定你用的是 NVIDIA 硬件。这不仅仅关乎 FLOPs浮点运算次数或 GPU 显存有多大同样重要的是软件栈 —— 那些底层库、框架和 SDK让 AI 工程师能够训练、优化并部署自己的模型。作为一名 AI 工程师如果你了解 NVIDIA 如何构建其 GPU 体系你的工作会轻松得多。本文将以硬件优先的视角为你提供该体系的实用指南软件视角计算能力compute capability与 CUDA 特性架构视角Ampere → Hopper → Blackwell硬件视角PCIe 与 SXM、NVLink 的对比以及它们何时重要理解计算能力Compute Capability每一块 NVIDIA GPU 都拥有一个“计算能力”Compute Capability简称 CC版本号例如 7.0、8.9、9.0 等。这个数字定义了该 GPU 支持哪些指令、CUDA 核心、Tensor Core、内存操作以及其他功能。简单来说CC 版本号决定了每种 GPU 架构所具备的硬件特性。如果我们查看下表就能看到从早期的 Tesla GPU 到专为 AI 设计的最新 Blackwell 芯片每个 GPU 芯片家族对应的 CC 版本号。我 2008 年使用的 GT7300便属于 Tesla 架构家族。有趣的是一款基于 Tesla 家族 GPU7800GTX的修改版本 —— 名为 RSXReality Synthesizer的芯片曾被用于 PlayStation 3 主机。该芯片由索尼与英伟达合作开发。图 3. 计算能力与GPU架构的对应关系图展示了各 CUDA SDK 版本所涵盖的计算能力版本号范围。图片来源维基百科附有补充标注。如果你拥有一块 NVIDIA GPU可以在终端中运行以下命令查看它的 CCnvidia-smi --query-gpuname,compute_cap --formatcsv图 4. 执行上述命令后我的 RTX4080 GPU 的计算能力 (CC) 及其他 nvidia-smi 详细信息。有几个关键特性与计算能力紧密相关Tensor Core 与精度格式AmpereA100、RTX 30XX支持 TF32 和 FP16 Tensor CoreHopperH100通过 Transformer Engine 新增 FP8 支持BlackwellB100/B200进一步推进至 FP4/NVFP4用于推理优化图 5. Tensor Core 的组成结构对应的计算能力Compute Capability, CC。对于每一个 CC 版本号Tensor Core 的配置都不同并且经过了更进一步的优化。该图来自维基百科。内存更新的 CC 支持更先进的高带宽内存如 HBM2E、HBM3、HBM3e、更大的显存容量以及更快的 NVLink 互连技术。CUDA 与库支持新的 CUDA 特性在某个时间点后将不再向后兼容旧的计算能力版本。分析 GPU 时的一个经验法则是CC 版本号越高对现代 AI 特性FP8/FP4、更好的稀疏性、更大的内存、新的互连技术获得的“原生”支持就越好。下图概述了 GPU 的架构家族与具体型号涵盖了从消费级 GPU 到数据中心 GPU 的范围并展示了它们各自对应的计算能力Compute Capability分数。图 6以更宏观的视角展示了 GPU 架构与计算能力CC之间的关联并包含了具体的 GPU 型号。该图源自维基百科并添加了额外的标注说明。总结本节内容计算能力Compute Capability告诉你一块 GPU 实际支持哪些硬件特性以及你的 CUDA kernel 能否以全速运行。显存VRAM、计算性能FLOPs和互连技术固然重要但前提是这些功能必须被该 GPU 的计算能力所支持才能真正发挥作用。在了解了计算能力Compute Capability, CC之后我们可以通过查阅“技术规格速查表”Technical Cheatsheet进一步理解 GPU 性能我们可以从中提取诸如接口类型、浮点运算性能FLOPs、显存带宽Memory Bandwidth等具体细节。解读技术规格速查表在理解了计算能力之后GPU 技术规格速查表Technical Cheatsheet是 AI 工程师用来掌握硬件与软件优化细节的另一关键参考工具。在一份技术规格速查表中工程师可以查找到关于 CPU 性能、功耗、不同精度格式下的理论算力以及 GPU 封装形式等核心指标。其中最后一项封装形式对于计算集群的构建尤为重要因为集群中需要连接多块 GPU 并共享资源池。通过速查表你可以快速回答以下问题这款 GPU 是否支持所需的精度模式其显存容量与带宽是否充足GPU 之间的互联带宽是否足以支撑模型并行它能否顺利部署到现有的硬件基础设施中在下图中我们以 Hopper H200 GPU 的技术速查表为例重点查看其 FLOPs 相关参数并解释 SXM 与 PCIe 等不同封装形式之间的区别。图 7. 带注释示例的 NVIDIA H200 GPU 技术速查表以及展示 PCIe 与 SXM 外观形态差异的图片。根据这份速查表AI 工程师通常会首先关注显存容量、带宽以及特定精度类型的 FLOPS这些指标直接决定 AI 模型训练与推理的速度。以这款 GPU 为例单块 H200 GPU 拥有 141GB 显存带宽高达 4.8 TB/秒。对于视觉类工作负载例如实时视觉 AI 推理该 GPU 配备了 NVDEC 视频解码引擎能够将视频数据解码并直接转换为张量就绪的数据结构tensor-ready structures无需经过 CPU 处理。4.1 MIG - 多实例 GPUMulti Instance GPU另一个重要细节是 MIGMulti Instance GPU它允许工程师将单块物理 GPU 切分为多个虚拟 GPU 实例每个实例都运行在相互隔离的环境中。例如一块 H200 可被划分为 4 个 MIG 实例每个实例拥有 36GB 显存。这意味着 4 位不同的 AI 工程师可以各自在独立环境中运行自己的工作负载。比如在“多智能体系统”multi-agent system场景中多个大语言模型LLM各自驻留在独立的显存VRAM和 GPU 资源边界内同时并行处理不同的任务。在模型训练的实验阶段MIG 同样非常实用 —— 你可以用它并行运行同一实验的不同配置或优化策略。例如一个 MIG 实例使用 FP8 量化、以 batch size 32 进行推理另一个则使用 FP4 量化、batch size 64。4.2 封装形式Form Factor —— SXM 还是 PCIe现在让我们聚焦于封装形式因为它也直接影响 GPU 性能。在这份速查表中列出了两种形态PCIe 和 SXM。PCIePeripheral Component Interconnect Express是一种通用接口标准常见于消费级 GPU。在附图中可以看到一张游戏 PC 主板其配备 PCIe 5.1 插槽可用于安装如 RTX 4080/4090/5090 等显卡。而 SXM 是一种直接嵌入主板的特殊芯片封装形式专用于数据中心集群。例如一台 H200 DGX 服务器包含 8 块 H200 GPU —— 它们并非通过 PCIe 连接而是通过 SXM 直接连接并通过 NVLink 互连。图 8. H200 SXM 封装形式 GPU左和 PCIe 封装形式 GPU右的特写。下图是芯片在控制板上的外观。采用 SXM 封装形式GPU 能获得更高的供电能力从而维持更高的持续时钟频率并通过 NVLink 交换芯片实现 GPU 与 GPU 之间的直连通信。这对训练或部署大模型至关重要 —— 因为 AI 工程师可充分利用张量并行Tensor Parallel或流水线并行Pipeline Parallel等技术同时保持极低的 GPU 间通信延迟。例如H100 的 SXM 封装版本可以组成 NVLink/NVSwitch 互联拓扑结构在这种结构中16 块 GPU 能够共享高达数百 GB/s 的双向通信带宽。这类多 GPU 集群通常用于训练和推理大型稠密 LLM 或 MoEMixture-of-Experts模型 —— 因为 MoE 网络中的 token 路由和激活值交换极度依赖高速的 GPU-GPU 通信。图 9由 NVIDIA NCCL 库所支持或优化的、包含 16 块 GPU 的互联拓扑结构。来源NVIDIA[3]4.3 什么是 NVLink要理解 NVLink 和 NVSwitch我们可以先回顾一下早期的 SLI 接口。2012 年用于训练 AlexNet 的两块 GTX 580就是通过 SLI 桥接器SLI Bridge连接以实现更快的计算和两块卡之间的数据共享。SLI 诞生于游戏时代当时 NVIDIA 主要面向消费市场销售用于图形渲染的 GPU。图 10使用 SLI 桥接器连接的 NVIDIA GeForce GPU。来源维基百科。NVLink 是 SLI 的继任者专为 AI 工作负载设计。对于桌面端PCIe 显卡NVLink 通过一种外置物理桥接器NVLink Bridge连接。这是一种紧凑的 PCB 结构件插入两张相邻 GPU 顶部的专用 NVLink 接口类似于老式的 SLI 桥。对于服务器端SXM 模块在高密度服务器环境如 NVIDIA DGX 系统中NVLink 连接直接集成在多 GPU 载板上。SXM 形态的 GPU 模块插入该载板后NVLink 连接就成为服务器内部结构的一部分。例如下图展示了两块 A100 PCIe 显卡通过 NVLink 桥接器连接的情形。图 11两块采用 PCIe 封装形式的 NVIDIA A100 GPU使用 NVLink 桥接器连接。AI 工程师如何选择GPU典型的 AI 工程工作流高度依赖专用硬件来加速模型训练与推理。尽管大部分工作负载运行在云计算平台上但许多团队尤其是处理高度敏感数据或有特殊需求的团队仍会使用本地计算集群。无论部署环境如何关于使用哪种 GPU 的决策都应该基于充分的研究、规划。AI 工程师常见的部署环境包括云计算平台诸如 AWS、Azure、GCP 或原生的 NVIDIA DGX Cloud 等服务提供可扩展、按需付费的顶级硬件访问权限例如 NVIDIA H100。LambdaCloud 或 RunPod 等特色供应商也提供了颇具吸引力的替代方案。本地实验室在私人数据中心或专用实验室工作的工程师对硬件拥有完全的控制权通常使用 NVIDIA DGX 或 HGX 系统。本地部署是目前大多数顶尖 AI 实验室如 OpenAI、Anthropic、X 和 Meta的主流选择 —— 他们都采购了 DGX 集群或大量 NVIDIA GPU 来自建数据中心。这是因为在多数 AI 研究中如果需要进行 100 次实验其中 70 次可能失败。若使用按需付费的云资源面临冷启动问题并在大型云集群上调配资源成本将十分高昂。在对比具体 GPU 型号时无论是在云端还是本地工程师通常会依据三大技术层面进行评估1计算能力硬件与软件层面对于 NVIDIA 而言计算能力指标决定了 GPU 支持的底层特性包括支持的精度格式、Tensor Core 或 CUDA Cores 的配置。2可用内存VRAM 与带宽VRAM 指的是可用内存大小而带宽则决定了数据存取的速率。尽管大语言模型正趋向小型化如 12B、30B 参数的模型已表现非常优异但在预训练的 BF16 精度下将此类模型加载到内存中仍需大量 VRAM。带宽是另一个关键的性能维度。训练或微调 LLM 涉及大量读写操作这些操作不仅占用 VRAM还会利用 GPU 的所有内存层级。GPU 除了显存VRAM之外还拥有 SRAM 和寄存器Registers。这些高速存储单元用于临时缓存 kernel 计算产生的数据 —— 要么供另一个 kernel 接着使用要么将数据写回 VRAM以便 CPU 能够访问。最新一代 GPU 大多采用 HBM这种高带宽内存比消费级 GPU 常用的 GDDR-X 内存更适配 AI 工作负载。3互联能力通信性能这一指标决定了 GPU 间相互通信的速度对于分布式训练非常重要 —— 因为大多数模型并非在单卡上训练或微调而是通常涉及多 GPU 集群。注例如 Mistral 8x7B MoE 模型就是基于 240 块 H100 GPU 从头开始训练的这种配置在大多数 LLM 预训练中相当典型。此处的关键区别在于连接接口的选择是 PCIe 标准还是 SXMNVLink 组合。后者是大规模分布式 LLM 训练的首选方案。遵循软件能力、内存和互联性能这三大技术层面来评估 GPU 选项能够有效筛选出符合需求的 GPU 型号并让我们能根据工作负载的具体要求对系统进行针对性调优。结语AI 世界日新月异但底层的核心问题从未改变我的 GPU 能否运行所需的 kernels→ 看计算能力与架构我的模型和 batch size 能否装下→ 看显存、内存类型与带宽我的 GPU 之间的通信速度是否够快→ 看 PCIe 与 SXM归根结底AI 工程师做出正确选择的关键在于将这些核心需求与合适的工具、生态系统及可扩展性要求相匹配。明确你当前处理的 AI 工作负载预训练、微调或推理的具体需求范围将极大简化选择合适计算资源的过程。