天津网站推广公司哪家好范文网站学校技防 物防建设
天津网站推广公司哪家好,范文网站学校技防 物防建设,2023年最新新闻简短摘抄,青岛网站建设市场1. 从“搬数据”到“就地算”#xff1a;为什么我们需要存内计算#xff1f;
大家好#xff0c;我是老张#xff0c;在AI芯片这个行当里摸爬滚打了十几年#xff0c;从早期的专用加速器做到现在的大模型推理芯片#xff0c;有一个问题始终像幽灵一样缠绕着我们#xff1…1. 从“搬数据”到“就地算”为什么我们需要存内计算大家好我是老张在AI芯片这个行当里摸爬滚打了十几年从早期的专用加速器做到现在的大模型推理芯片有一个问题始终像幽灵一样缠绕着我们“内存墙”。简单来说就是计算单元跑得飞快但数据从内存里搬进搬出的速度太慢、太耗电导致整个系统的效率被死死拖住。你可以想象一个厨艺超群的大厨计算单元但他的厨房离食材仓库内存有几百米远他每做一道菜都得自己跑个来回取食材大部分时间和体力都浪费在路上了。传统的冯·诺依曼架构就是这样的“跑腿”架构。存内计算CIM的理念就是要把“仓库”改造成“厨房”让数据在哪里计算就在哪里发生。这听起来很美但实现起来技术路线却分成了两大派别数字CIM和模拟CIM。我刚开始接触这个领域时也在这两者之间纠结过。数字CIM就像在仓库里放了一台标准的电子计算器精度高、抗干扰能力强设计方法也成熟但问题是这个“计算器”本身由逻辑门构成比较占地方、耗电。模拟CIM呢更像用仓库里现有的水管、阀门、压力表来构建一个模拟计算系统利用晶体管的物理特性比如电流、电压直接做乘加运算极其省电但精度容易受环境温度、电压波动影响而且把模拟信号转回数字信号的“翻译官”——模数转换器ADC成了新的性能瓶颈。所以很长一段时间业界都在做选择题要高精度选数字要超低功耗选模拟鱼与熊掌似乎不可兼得。直到我看到这篇来自ISSCC 2024的论文它提出的28nm混合域CIM架构让我眼前一亮。它不像是在做选择而是狡猾地说“我全都要”。它通过一种巧妙的“分而治之”策略让数字和模拟各自干自己最擅长的事最终在28nm这个成熟工艺节点上实现了72.12 TFLOPS/W的惊人能效。这个数字是什么概念它意味着每消耗一瓦特的能量可以进行72.12万亿次浮点运算。这为高要求的AI边缘计算比如自动驾驶的实时感知、手机的实时AI拍照处理提供了全新的硬件可能性。2. 拆解“混合域”核心如何让数字和模拟完美搭档论文最核心的创新就是这个“混合域”设计。它不是一个简单的拼凑而是一次精密的“手术”把一次完整的计算任务解剖开分派给最合适的执行单元。2.1 公式层面的“分家术”我们以最经典的8位整数乘累加MAC为例W[7:0] * A[7:0]。在传统架构里这就是一个黑盒子一股脑算完。但混合域架构的聪明之处在于它先对计算过程做了一次数学上的“因式分解”。它把8位乘8位的操作拆解成了多个1位乘8位的乘法以及后续的移位累加。关键洞察来了1位乘8位这个操作本质上是“有”或“无”的选择因为1位权重非0即1这非常适合用模拟电路高效实现——只需要控制电流的通路即可。而后续对不同位权结果的移位和累加涉及多位数字的精确对齐和求和这正是数字电路加法器、移位器的拿手好戏精度有绝对保障。这就好比做一道大菜模拟电路负责快速、省力地完成切配简单的位乘而数字电路则负责需要精确火候和调味的翻炒与炖煮复杂的累加。两者分工明确扬长避短。2.2 电路层面的“协作流水线”在芯片上这个分工是这样实现的模拟CIM阵列切配车间这里存放着权重W。当激活值A的某一位到来时阵列内的模拟电路基于电流镜和传输门会快速产生与该位权重相关的模拟电流。这个过程并行度极高且极其省电因为直接利用了存储单元本身的物理特性进行计算没有额外的数字逻辑门开销。对数ADC快速翻译官模拟阵列产生的是电流信号需要转换成数字信号才能交给数字部分处理。这里就引入了论文第二个关键创新——对数位宽残差ADC。我待会会详细讲它你可以先把它理解为一个速度极快、功耗很低的“翻译官”专门负责把模拟车间的“切配成果”快速、准确地报给数字车间。数字累加单元核心烹饪区接收到ADC翻译过来的部分结果后数字电路开始工作。它根据当前计算的是权重的第几位对结果进行相应的移位相当于乘以2的幂次然后累加到之前的结果上。这个过程需要8个周期来完成一个完整的8位乘8位运算但每一步都是高精度、确定性的数字操作。这种“模拟并行乘法 数字串行累加”的混合流水线完美结合了模拟计算的高能效与数字计算的高精度。我实测过一些早期的纯模拟方案精度损失在复杂环境下能到5%以上对于很多AI应用来说是不可接受的。而这种混合方案在能效媲美纯模拟的同时把计算精度稳稳地保持在了数字电路的水平。3. 攻克ADC瓶颈对数位宽残差ADC的“四两拨千斤”刚才提到了ADC这个“翻译官”它一直是模拟CIM最大的痛点之一。高精度ADC面积大、功耗高低精度ADC又会影响整个系统的计算精度。论文提出的对数位宽残差ADC是我认为设计中最具巧思的一笔。3.1 核心洞察计算结果的非均匀分布传统的ADC设计需要能分辨从最小到最大所有可能的电流值。但在我们这个特定的存内计算场景里情况很特殊。模拟阵列进行的是1位乘8位操作其输出的最大电流值仅仅是单位电流的8倍对应权重位为1且激活值全为1的情况。更重要的是大部分输出电流值集中在较小的范围内尤其是0值附近因为权重或激活的某一位为0时结果就是0。作者敏锐地抓住了这个特征。他们发现要有效区分这些非零的电流状态从1倍到8倍单位电流其实只需要log₂(8) 3位的分辨率就够了。这就像你要测量一个房间里的成人身高所有人的身高都在1.5米到2.0米之间那你完全不需要一把从0米量到3米的尺子一把精确到厘米的、量程1.5-2.0米的短尺就足够了而且这把短尺可以做得更精密、更易用。3.2 “零消折叠”与残差比较基于这个洞察ADC被设计成一个3位零消折叠ADC。“零消”电路首先会判断输入电流是否为零或接近零。如果是ADC直接关闭不进行任何转换节省功耗。这直接针对了计算中的稀疏性很多零值。“折叠”与“残差”对于非零电流它并不直接测量其绝对值而是采用一种“残差比较”的策略。简单类比它先快速判断电流落在哪个大区间比如是1-3倍单位电流还是4-6倍然后再在这个小区间内进行精细比较确定最终值。这个过程就像先看体温计是38度档还是39度档再看具体是38.5还是38.7。这种设计带来了三大好处位宽大降从可能需要6-8位直接降到3位ADC的复杂度、面积和功耗急剧下降。精度提升由于位宽降低相同的电路面积下可以给每个比较区间分配更大的电压/电流裕度反而提高了比较的准确性和抗噪声能力。能效飞跃论文数据显示这个3位残差ADC的能效比ISSCC 2021一篇论文中的3位SAR2位斜率ADC提高了70%比ISSCC 2023一篇论文中的8位SAR ADC提高了2.6倍。这完全是架构创新带来的降维打击。我在做芯片功耗评估时深有体会ADC常常是模拟计算链路上的功耗大头。这个设计相当于把最大的那块功耗“石头”搬走了为达成72.12 TFLOPS/W的终极能效立下了头功。4. 面向真实场景的优化稀疏控制与外积计算模式有了高效的混合计算核心和ADC论文的思考并没有停止。他们进一步问AI工作负载尤其是边缘侧的任务有什么特点我们的硬件如何更好地适应这些特点于是稀疏控制和外积计算模式这两大优化被引入进来。4.1 稀疏控制电路不浪费一焦耳在“零”上AI模型特别是经过剪枝、量化优化后的模型其权重和激活张量中充斥着大量的零。在传统硬件上计算零和计算非零值的开销是一样的这无疑是巨大的能量浪费。论文在架构中集成了一套稀疏控制电路。这套电路的工作方式非常高效。它要求数据以压缩稀疏行CSR格式预先存储。CSR格式只存储非零元素的值和它们的位置信息。稀疏控制电路在计算时直接读取这些位置信息“指挥”计算单元跳过所有零值所在的行和列只对非零元素进行计算。这就像让你在一张绝大部分都是空白的表格里做汇总稀疏控制电路直接给你一张只标有有效数据位置的“导航图”你按图索骥直奔主题根本不用去看那些空白格子。根据论文数据和我们的经验对于典型的稀疏模型这套机制可以轻松节省30%-50%甚至更高的计算能耗。这对于追求极致能效的边缘设备来说收益是决定性的。4.2 外积计算模式化“大扇入加法”为“并行积累”传统存内计算多采用内积模式。想象一个神经元它有很多输入一个向量每个输入乘以对应的权重然后把所有这些乘积加起来。这需要一个多输入的加法树随着精度和向量长度的增加这个加法树会变得非常复杂、延迟高、功耗大。本文则采用了外积计算模式。这个概念在软件和算法里很常见但在存内计算硬件中巧妙应用能极大简化电路。外积模式可以理解为一次计算一个输入一个标量与一整组权重一个向量的乘法产生一个部分结果向量。多次这样的操作后再将部分结果向量累加起来。这样做的好处是彻底避免了庞大、深层的多级加法树。每一次外积操作都是相对独立且并行的最终的累加可以在一个更宽但更浅的加法器上完成。这不仅降低了计算复杂度改善了时序还进一步提升了能效。在实际的矩阵乘法中这种模式能更好地利用数据复用减少对存储带宽的压力。4.3 INT/FP双模支持应对多样化的算法需求边缘AI的任务正在从单纯的整数推理INT8向混合精度甚至浮点推理如BF16扩展。论文的架构也考虑到了这一点支持INT8和BF16浮点双模计算。在INT8模式下架构直接使用8位整数组件进行计算路径直接效率最高。在BF16浮点模式下架构会将浮点数的符号、指数和尾数分离处理尾数部分进入核心的混合域乘加阵列进行计算符号和指数则由额外的数字模块Exp Sign Calc处理。最后再将三部分结果组合、规范化得到最终的浮点结果。这种设计体现了灵活性。当然这也带来了一个所有可配置硬件都面临的问题硬件利用率。在运行INT8任务时浮点专用的指数/符号计算模块是空闲的反之亦然。如何在面积、功耗和灵活性之间取得平衡是芯片架构师永恒的课题。论文作者也坦诚了这一点并指出这是未来可以优化的方向。5. 架构启示与实战思考通篇看下来这篇论文给我的感觉不像是一个天马行空的理论突破而更像是一次极其扎实、步步为营的工程优化典范。它没有依赖最先进的工艺用的是28nm也没有提出什么全新的物理器件而是通过对计算本质的深刻理解对现有技术模块进行创造性的重组与优化最终实现了能效的跨越。对于芯片架构师和AI硬件开发者我觉得有几点启示特别重要问题导向而非技术炫技所有创新点混合域、对数ADC、稀疏控制、外积都紧密围绕“解决AI边缘计算高能效、高精度需求”这个核心问题展开。尤其是对数ADC的设计完美诠释了“在特定约束下寻找最优解”的架构思维。系统级协同优化它不是单个模块的单点突破而是存储、模拟计算、数字计算、数据格式、数据流全方位的协同设计。稀疏控制电路需要CSR格式的数据支持外积模式改变了数据在阵列间的流动方式混合域划分决定了数据在模拟/数字界面的交互协议。这种系统级视角是做出优秀芯片的关键。拥抱混合信号设计纯数字或纯模拟的路径可能越来越接近瓶颈。未来的高性能、高能效计算芯片必然是数模混合的天下。如何设计高效、鲁棒的模拟-数字接口比如本文的ADC如何划分数字和模拟的边界将成为核心技能。为真实负载设计稀疏性和混合精度是当前及未来AI负载的鲜明特征。硬件架构必须从“通用计算”转向“领域专用”内置对这些特征的原生支持才能释放真正的潜力。最后聊聊这个72.12 TFLOPS/W的数字。这个峰值能效是在特定电压、频率和理想数据模式下测得的。在实际芯片部署中供电网络、散热、软件映射效率、数据搬运开销都会影响最终的系统级能效。但这并不减损这项工作的价值。它为我们竖起了一个新的标杆指明了一条清晰可行的技术路径。在我参与的下一代边缘AI芯片预研中这种混合域的思想和对数压缩ADC的理念已经成为了我们重点评估和借鉴的方向。真正的创新往往来自于对老问题的重新审视和跨域技术的巧妙融合。