access数据库网站开发,a最先基智网站建设,百度网站地图提交,苏州市高新区建设局网站本文回顾了2025年大模型#xff08;LLM#xff09;在注意力机制#xff08;Attn#xff09;和专家混合#xff08;MOE#xff09;方面的核心架构进展。重点介绍了TPA、MoBA、NSA等创新方法#xff0c;如低秩压缩KVcache、Top-k block注意力、原生稀疏注意力等#xff0…本文回顾了2025年大模型LLM在注意力机制Attn和专家混合MOE方面的核心架构进展。重点介绍了TPA、MoBA、NSA等创新方法如低秩压缩KVcache、Top-k block注意力、原生稀疏注意力等并分析了它们对提升LLM推理效率和性能的作用。同时文章还探讨了混合架构、GatedDeltaNet等优化策略为读者提供了全面且实用的技术参考。对2025年的LLM核心架构进展做一个复盘总结一下有哪些论文对Attn和MOE做了研究。相关文章还有LLM推理加速方法-2025年终总结、LLM开源模型最新整理GPT-OSS/Seed-OSS/Kimi-K2/LongCat等。总结从时间上依次是TPA25.01 清华 低秩压缩KVcache把QKV使用两个低秩矩阵表示存储低秩的KVcache对decode提升明显。相比MLA是对特征维度低秩压缩TPA是拆成时间和特征两个低秩空间进行压缩MoBA25.02 kimi Top-k block注意力token级别的chunk注意力筛选。NSA25.02 deepseek 原生稀疏注意力聚合了token压缩保留全局信息token筛选保留关键细节滑动窗口保留最近信息总体架构是GQAMOE实现复杂结果很好。DHD25.07microsoft SambaAttnSambaY架构gpt-oss25.08OpenAIGQA交替使用Sliding和FullMOEMXFP4Qwen3-Next25.09 通义 混合GDN架构GatedAttnAttnsigmod优化Attn sink问题GDN平衡效率和质量相比LinearAttn效果更好。LongCat-Flash-Chat25.09 美团双branch MLA逻辑在MLA后要MOE的同时另开分支进行FFNMLAFFN计算和Zero-Computation Experts降低计算量KLA25.10 kimi 3:1混合KDA和MLA架构KDA细粒度优化GDNMLANoPE实现最优效果MiniMax-M1/M225.10 从Linear Attn转向Full AttnRing-flash-linear-2.0 25.10 蚂蚁 HybridAttnLinear和Full是3:1效果最佳但上线用了4:1和7:1。做了FP8优化和很多内核融合的优化。calm25.10腾讯逐token生成-逐句生成增加了Encoder和Decoder将hidden_status转成多token需要设置固定的转换token数量。AHN25.10 字节 RNN压缩过长上下文局部标准注意力使用Mamba2、DeltaNext、GDN等RNN架构压缩超出指定长度的长下文内容。flash-moba25.11 MIT 针对MOBA内核加速ASA25.11 人大美团 优化NAS将每一层使用3种压缩改为局部SlideAttn层(MLA替换GQA)压缩/top-k层(GLA替换GQA)交替通过算子优化在大幅减低cache的同时也提升了效果。Native Top-k Sparse Attention25.12美团 top-k注意力借鉴DPSK-V3.2-EXP的Lightning Indexer快速筛选top-k。直接在推理时采用top-k也有不错的效果如果进行了top-k SFT则效果更佳。LLSA25.12 南洋理工top-logk将top-k改为top-logK。总结下来就是SlidingAttn、linearAttn的效果弱于压缩和稀疏化。类似MLA的低秩压缩和GDN的时序压缩、top-k的筛选效果都还不错但是一定要混合Full Attn无可替代通常3:1混合比较平衡。token控制力度越细GDN-KLA、Attn类型越多SlidingAttn/压缩-NSA模型效果通常会越好。有1说1美团的LongCat-Flash-Chat借鉴了DS的MLAASA优化了DS的NSATop-k参考了DS的Lightning Indexer看来对DS研究还蛮深的TPA25.01 清华 低秩压缩KVcacheTensor Product Attention Is All You Need论文提出了Tensor Product Attention (TPA)机制通过将注意力机制中的 Q、K、V 进行动态的上下文低秩分解有效地解决了 LLM 推理时的 KV Cache 内存瓶颈。在标准多头注意力中会使用一个巨大的权重矩阵 W_Q 大小为 512×512计算 x_t×W_Q512 维的向量。将这 512 维拆成 8 个头每个头 64 维。结果得到了一个 8×64 的完整矩阵里面有512 个独立的数值。**TPA 做法张量分解 (Tensor Factorization)。**TPA 不直接生成这 512 个数而是通过两个较小的“因子”来生成它们。假设设置秩R1最简单的情况第一步生成“头维度因子” (a)。用一个较小的线性层Wa大小 512×8ax_t×W_a结果得到一个长度为8的向量。这个向量决定了“哪些头比较重要”。例子a[0.1,0.5,0.0,…,0.9]第二步生成“Token 维度因子” (b)。我们用另一个线性层Wb大小 512×64bxt×Wb结果得到一个长度为64的向量。这个向量包含了该 Token 具体的表征信息。例子b[1.2,−0.5,…,0.3]第三步进行张量积外积。将a和b相乘生成一个 8×64 的矩阵QtQt[i,j]a[i]×b[j]第 1 个头的 Query 向量是0.1×b第 2 个头的 Query 向量是0.5×b以此类推。MoBA25.02 kimi Top-k block注意力MoBA: Mixture of Block Attention for Long-Context LLMSeerAttention: Learning Intrinsic Sparse Attention in Your LLMsMoBA是一种创新的注意力架构通过将专家混合MoE原理应用于注意力机制来解决长上下文LLM的计算效率问题。将上下文划分为块blocks每个查询token通过门控机制动态选择最相关的KV块只关注选定的块而非整个上下文MoBA 可以与全注意力Full Attention无缝切换。论文提出了层间混合如最后几层使用全注意力以优化指令微调效果和阶段混合预训练后期切换回全注意力。如何评价 Kimi 开源的稀疏注意力框架 MoBA与DeepSeek的NSA相比二者各有哪些亮点 - Andrew Lu的回答 - 知乎 提到观察到 MoBA 有时会导致 SFT 期间的性能不佳可能归因于 SFT 中使用的损失掩蔽loss masking—— 提示词 token 通常被排除在 SFT 期间的损失计算之外这可能会对 MoBA 等稀疏注意力方法造成稀疏梯度难题。将最后几层 Transformer 从 MoBA 换成 Full Attention而其余层继续采用 MoBA。此策略可以显著减少 SFT 损失。**相关知乎链接中还提到MOBA会和GQA的效果冲突**16 个 QHead 的 MQAMoBA 刚好切分整个序列到 16 份这意味着当最坏情况每个 Q head 感兴趣的分别是序号从 1 到 16 的每个上下文块节省 IO 的优势就会被磨平。能自由选择 KV Block 的 Q Head 越多效果越差。NSA25.02 deepseek 原生稀疏注意力Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention现有长上下文优化方法SLA、token剪枝/丢弃等效果都不好。论文提出了NSA原生稀疏注意力这是一种硬件友好且支持端到端训练的稀疏注意力机制。它通过“压缩、选择、滑动窗口”三种并行策略在大幅降低长文本计算开销的同时保持了甚至超越了全注意力的性能。算法设计Token 压缩Token Compression将相邻的 Key 和 Value 分块。使用一个可学习的 MLP 将每个块压缩成一个紧凑的表示。这提供了全局的、粗粒度的语义信息大幅减少了 KV 数量。Token 选择Token Selection基于压缩分支产生的注意力得分识别出最重要的关键块。保留这些块中原始的、细粒度的 Token。这种“块状选择”既保证了关键细节不丢失又符合硬件连续访问的特性。滑动窗口Sliding Window显式保留最近的 Token 窗口以捕捉局部的精确上下文。门控聚合三个分支的结果通过门控机制Gated Mechanism进行融合。论文基于 Triton 开发了专门的内核分组中心数据加载针对 GQA分组查询注意力架构一组 Query 共享相同的稀疏 KV 块减少内存读取。块状内存访问避免随机索引读取利用 GPU 的 Tensor Core 进行高效计算。平衡算术强度通过优化循环结构平衡了计算与内存访问的比例。Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation25.07microsoft SambaAttn论文提出了一种名为SambaY的“解码器-混合-解码器”Decoder-Hybrid-Decoder架构门控存储单元 (Gated Memory Unit, GMU)这是本文的核心机制。它是一个轻量级的门控操作用于跨层共享存储表示。公式为 Y_l(M{(l′)}⊙σ(X_lW_1T))W_2 。它允许模型在不使用昂贵的注意力机制的情况下动态地重新校准和读取之前层Self-decoder的 SSM 状态或注意力输出。SambaY 架构设计详见论文第二节Self-Decoder (前半部分)使用 Samba 架构Mamba SWA负责生成一次性的 KV 缓存和 SSM 内部状态。Cross-Decoder (后半部分)借鉴了 YOCO 的设计但通过 GMU 替换了一半的交叉注意力层。GMU 直接共享 Self-decoder 最后一部分 SSM 层的输出状态。效率提升将交叉注意力的 I/O 复杂度从 O(dkvN)O(dkvN) 降低到常数级O(dh)大大加快了长文本生成速度。μμP 参数扩展方案为了在不同架构间进行公平的 Scaling 实验论文提出 μμP。它集成了 μμP 和 Depth-μμP并对向量类参数应用零权重衰减zero weight decay确保模型在深度和宽度扩展时的训练稳定性。https://github.com/microsoft/ArchScale/blob/main/assets/sambay_poster.pdfQwen3-Next25.09 通义 GDN优化计算Qwen3-Next 的模型设计Gated DeltaNet 注意力weight decayMTP 等核心改进混合注意力机制、10/512的MOE比例、MTP。单纯使用标准注意力太慢了只使用线性注意力对长上下文的效果又不好可以参考Minimax M1 - M2的模型架构变化。当前主流观点是标准softmax注意力和线性注意力1:3左右比例混合可以达到质量和速度的最佳平衡。GatedAttn还能够优化Attn Sink问题Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free总体质量上也不错。具体代码实现https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/models/qwen3_next.pyGatedDeltaNet解读GDN实现参考论文和代码如下https://github.com/NVlabs/GatedDeltaNetGated Delta Networks: Improving Mamba2 with Delta Rule这里是a和b参与qkv的计算z对输出结果做归一化的门控。首先会通过a、b得到g、beta。然后结合公式中的代码得到S_tS_{t-1}(\alpha_t(I-\beta_tk_tk_tT))\beta_tv_tk_tT \ 拆开得\ S_tS_{t-1}*\alpha_t - S_{t-1}*\alpha_t*\beta_tk_tk_tT\beta_tv_tk_tT \ S_{t-1}*\alpha_t \beta_t*k_t^T*(v_t-S_{t-1}*\alpha_t*k_t)伪代码如下# h_current 的形状是 [num_heads, head_k_dim, head_v_dim] # 它从 ssm_state 中为当前序列加载 h_current load_initial_ssm_state_for_sequence(ssm_state) for t inrange(num_tokens): # 遍历序列中的每个 token # 获取当前 token 的数据 q_t q_new[0, t] # [num_k_heads, head_k_dim] k_t k_new[0, t] # [num_k_heads, head_k_dim] v_t v_new[0, t] # [num_v_heads, head_v_dim] g_t g[t] # [num_v_heads] beta_t beta[t] # [num_v_heads] # 为了匹配维度需要对 g_t, beta_t, q_t 进行广播(broadcast) # v_heads 和 k_heads 之间存在分组关系 # a. 状态衰减 (State Decay) # exp(g_t) 会被广播到 h_current 的形状 h_decayed h_current * exp(g_t) ### 这个就是St-1*aphla # b. 值修正 (Value Modification - Delta) # sum 在 head_k_dim 维度上进行 # h_decayed 与 k_t (广播后) 进行矩阵乘法 delta einsum(hkd,hd-hk, h_decayed, k_t) # 伪代码示意实际为矩阵乘 v_modified v_t - delta # c. 状态更新 (State Update) # v_modified * beta_t (广播后) 与 k_t 进行外积 update_term einsum(hk,hv-hkv, k_t, v_modified * beta_t) # h_current h_decayed update_term # d. 输出计算 (Output Calculation) # q_t (广播后) 与 h_current 进行矩阵乘法并在 head_k_dim 上求和 output_t einsum(hk,hkv-hv, q_t, h_current) # 伪代码示意 output_sequence.append(output_t) # 循环结束后更新 ssm_state save_final_ssm_state(ssm_state, h_current) # 3.1. 门控归一化 (Gated Normalization) # 使用之前计算出的 z 对 core_attn_out 进行门控 normalized_output RMSNorm(core_attn_out) gated_output normalized_output * z # z 在这里作为最终的输出门控这里的QKV和softmax中的区别如下通过vllm测试在输入token比较少的时候full attention的耗时比gdn要少但是当token数越来越大时full attention的耗时快速增长。Zero-RMSNorm相比标准RMSNorm这里增加了减去均值的操作相当于消除了数据偏移量原本的数据均值要么0要么0也有可能0或者0认为有数据分布偏移当减去均值后结果均值一定是0也就是消除了偏移从而带来更稳定的训练过程和可能更好的模型性能。MTPMTP相关知识可以参考LLM之Speculative Decoding实战。虽然有一定的加速效果**但是测下来感觉会有点降低结果质量。**毕竟大模型验证只要保证MTP结果在一定置信度范围内即可但是无法保证完全一致。KLA25.10 kimi 混合线性注意力Kimi Linear: An Expressive, Efficient Attention Architecture**现状**虽然已有许多“线性注意力”方法如 Mamba、GLA试图将注意力复杂度降至 O(T)但它们通常在表达能力上不如全注意力尤其在长程依赖、精确复制和上下文检索任务中表现不佳。基础线性注意力将 softmax 替换为可分解核函数如 q^T k实现 O(T) 推理 。Gated Linear Attention (GLA)引入可学习的通道级门控机制Diag(α_t)实现更细粒度的记忆控制。DeltaNet / Gated DeltaNet (GDN)将注意力视为在线学习过程使用“Delta 规则”更新状态结合标量门控遗忘机制。Mamba2结合选择性状态空间模型与乘法衰减但缺乏 Delta 规则表达能力受限。本文提出了高效的KDA注意力和3:1的KLA架构。KDA实现首先有线性注意力公式 St S_{t−1} k_tv^⊤_t , o_t S^⊤ _tq_tGatedDeltaNet公式 S_t \alpha_tS_{t−1} − β_t∇_SL_t(S_{t−1}) \alpha_t(I − β_tk_tk^⊤ _t )S_{t−1} β_tk_tv^⊤_ t对GDN进行token粒度调整使得每个特征维度可以独立控制遗忘率 S_t \alpha_tS_{t−1} − β_t∇_SL_t(S_{t−1}) (I − β_tk_tk^⊤ _t )Diag(\alpha_t)S_{t−1} β_tk_tv^⊤_ t通过拆分、UT变换、块内并行等方式设计了新的内核实现。在所有任务中随着序列长度从 256 增加到 2,048 个 tokenKDA 的准确率始终最高。特别是在回文和召回密集型 MQAR 任务中KDA 的收敛速度显著快于 GDN。这证实了细粒度衰减的优势它使模型能够有选择地遗忘无关信息同时更精确地保KLA架构采用3:1的KDA与全MLA注意力层混合比例在保持全局信息流的同时减少75%的KV缓存使用。其中MLA去掉了RoPE。论文中提到“通过引入专门的位置感知机制来补充全局 NoPE 注意力能够实现具有竞争力的长上下文性能。我们注意到NoPE 具有实际优势尤其是在 MLA 中。首先NoPE 可在推理过程中将其转换为高效纯多查询注意力MQA。其次它简化了长上下文训练因为无需调整 RoPE 参数例如频率基底调优或 YaRN[peng2023yarn] 等方法”KLA相比MLA速度上有较大程度的提升。MiniMax-M1/M225.10 从Lightning Attn转向Full AttnMiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning AttentionM1的几大特点采用了混合MoE Lightning Attention设计加速推理提出了CISPO通过剪裁重要性采样权重而非token更新解决了传统算法在长CoT训练中丢弃关键token的问题显著提升了RL训练的效率和稳定性。解决了在新型混合架构上进行大规模RL训练时遇到的独特挑战如计算精度不匹配通过提升LM头至FP32解决、优化器敏感性和路径学重复等问题。M1是456B-A46B加上1:7的标准:线性Attn推理速度比Qwen235B-A22B还要快。对于M2模型参数量230B-A10B。对比模型架构可看出变成了Full Attn。M2模型在某些超长上下文多跳推理场景下线性注意力始终效果不好降低占比应该也不行所以最后用了Full attention。Why Did MiniMax M2 End Up as a Full Attention Model?低精度状态存储线性注意力目前对数值精度的敏感度远高于全注意力。Prefix Caching兼容推测解码尝试通过CPT适配Hybrid SWA测试了层间和层内混合效果不好。Head特征在预训练基本就定型了CPT调整不动。Ring-flash-linear-2.0 25.10 蚂蚁 HybridAttnEvery Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning混合注意力MOEFP8算子库。Ring-mini-linear-2.0包含160亿参数和9.57亿激活量而Ring-flash-linear-2.0则拥有1040亿参数和61亿激活量。两个模型均采用一种混合架构有效融合了线性注意力linear attention与Softmax注意力机制通过对混合架构中不同注意力机制比例的系统性探索确定了当前最优的模型结构。同时借助自主研发的高性能FP8算子库——linghe整体训练效率提升了50%。关键架构设计系统测试了一个softmax注意力和M个线性注意力混合下的Loss曲线发现1:3的效果还不错。考虑速度上进一步提升最终选择了1:4和1:7两种注意力混合方案。针对大规模训练时标准 RMSNorm 层在TP 1时线性注意核与输出投影之间所需的all-reduce操作。通过**Grouped RMSNorm只在当前rank内对局部数据进行RMSNorm**消除了forward和backward的通信量。线性注意力中也使用QK-Norm Partial-RoPE会减少0.004的loss。线性注意力下幂律衰减比线性衰减能降低0.04的loss。优化后的显存消耗如下为了进一步提升速度进行内核融合在线性注意力层中将门控机制相关的作如注意力输出转置、群均方值范数、门 S 形态和乘法融合到一个核中。这减少了对 GPU 内存的多次访问并降低了训练期间激活内存的消耗。在高性能GPU上量化可占 GEMM 时间的近 20%因此将量化与相邻核融合。例如SiLU 紧接着是线性层。修改 SiLU 核使其直接输出量子化张量从而消除了写入和读取 SiLU 的 BF16 输出的需求。假设输入形状为[M N]非熔融版本的 I/O 体积约8MN为 而熔融版本则将其简化为4MN。这为 I/O 束缚核带来了显著的加速。可以看到速度提升效果calm25.10腾讯逐token生成-逐句生成Continuous Autoregressive Language Models论文试图解决大型语言模型LLMs效率的根本瓶颈顺序的、逐token生成过程。作者认为要克服这个瓶颈需要一个新的LLM扩展设计轴增加每个生成步骤的语义带宽。具体来说论文提出了从离散的下一个token预测范式转向连续的下一个向量预测范式从而显著减少自回归步骤的数量提高计算效率。核心是训练出一个Encoder和Decoder可以在token和向量之间互相转换。训练过程在原始训练数据转成token之后将每K个token进行Encoder得到一个特征向量。对于LLM训练还是输入token经过tfm处理在最后预测的时候生成特征向量和目标特征向量进行loss计算。在推理时输入token预测特征向量特征向量经过Decoder转成token进行输出并cat到原始输入后继续让LLM处理。AHN25.10 字节 RNN压缩超长上下文局部标准注意力Artificial Hippocampus Networks for Efficient Long-Context Modeling论文提出了人工海马网络AHN一个受认知科学启发的记忆框架用于高效的长上下文建模核心贡献引入AHN概念将无损短期记忆转化为压缩长期记忆使用现代RNN架构Mamba2、DeltaNext、GDN等实例化AHN实现恒定内存和计算复杂度采用自蒸馏训练方法高效地训练AHN模块技术特点保持32k滑动窗口作为无损短期记忆当序列超过窗口时AHN激活压缩外部信息显著降低计算和内存成本同时保持竞争力性能使用SWA记忆压缩单元。Hybrid Architectures for Language Models: Systematic Analysis and Design Insights25.10 MetaHybrid Attn系统性研究论文试图系统性地分析和解决混合架构语言模型的设计问题。层间混合模型Inter-layer Hybrid:在特定间隔交替使用softmax注意力层和线性序列建模层。块比例确定Transformer块与Mamba块的最佳比例位置安排确定Transformer块在模型中的最优位置前段、中段、后段研究发现1:1比例在质量上最优但1:5比例能更好地平衡效率和质量Transformer块放在中间层效果最好放在前面会导致性能显著下降**以前有论文说开头保持标准Transforme层效果最好对于不同类型的LLM这个可能是有点区别的**层内混合模型Intra-layer Hybrid在单个层内通过并行方式融合softmax注意力和线性注意力。将注意力头分成两组一组使用Transformer注意力另一组使用Mambaquery和key状态投影到降维空间值状态扩展回原始大小最优配置使用组归一化normalization is crucial通过减法或拼接融合输出单层输出投影结论混合架构显著优于同质架构层内混合表现最佳flash-moba25.11 MIT 针对MOBA内核加速Optimizing Mixture of Block Attention理论贡献首次建立了MoBA的统计模型推导出SNR公式揭示了d/B比例和块内聚类是影响性能的关键因素设计原则提出两个核心设计原则 - 优化d/B比例和使用键卷积增强信号聚类实现创新开发FlashMoBA通过融合内核和gather-and-densify策略使小块MoBA变得实用实证验证通过controlled experiments证明理论预测显示优化的MoBA在长上下文任务上超越稠密注意力ASA25.11 人大美团 优化NAS-ASAOptimizing Native Sparse Attention with Latent Attention and Local Global Alternating Strategies对Native Sparse Attention (NSA)进行了系统性优化提出了ASA (Alternating Sparse Attention)层间交替策略Alternating StrategyNSA 原本在每一层都同时运行三个分支。ASA 改为在层之间交替一层专门负责滑动窗口局部建模下一层负责压缩和选择性注意力全局建模。通过将模式分离每一层的注意力头可以专注于一种特定的稀疏模式。减少了不同模式间的干扰提高了表征的聚焦能力。在ASA的全局层中检索了128个块NSA为64个块。这种设计通过层间互补更有效地传播长程依赖同时将 KV-cache 存储开销降低了50%。引入潜变量注意力Latent Attention滑动窗口分支使用 MLA替换GQA利用潜变量Latent states增强局部信息的表达。全局分支使用 GLAGrouped-head Latent Attention由于 MLA 在训练时等同于多头注意力MHA不直接支持 NSA 的 KV 共享因此论文为 MLA 引入了分组机制GLA使多个 Head 共享相同的 KV 投影从而适配稀疏检索。算子优化Kernel Optimization为了提高训练效率利用相邻 Token 检索块重叠的特性ASA 强制连续的 4 个 Token 继承该块第一个 Token 的块索引Index sharing提升了 GPU 的硬件利用率。ASA 在减少 50% KV-cache 的同时在常识推理、长文本检索和综合理解任务上均达到了 SOTA 水平。Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models25.11 Nvidia Hybrid系统性研究为了实现延迟最优的 SLM架构设计和训练对于实现最佳的准确性与延迟权衡至关重要。更深的模型和更宽的模型哪个更能优化准确率与延迟之间的权衡训练一系列带有五个深度设置的 Llama 模型6、12、18、24 和 30 block每个块包含一个注意力和一个前馈网络FFN。对于每个深度设置还会调整模型宽度即隐藏大小以创建具有不同尺寸和延迟的模型。❶ 深度模型通常在较宽的深度范围内实现更好的准确率参数权衡尽管其优势会逐渐被消退;❷ 在准确度与延迟权衡下深薄模型的优势可能不适用且存在给定延迟预算下的最优深度设置。❸ 最佳深度-宽度比通常随着延迟预算增加而增加。这些观察强调了基于部署约束的深/宽选择的必要性而非默认采用深度-薄模型。Attention方式系统评估了多种新兴高效注意力替代方案Mamba、Mamba2、GLA、DeltaNet等A Preliminary Study on the Promises and Challenges of Native Top-k Sparse Attention25.12美团 top-k注意力论文通过研究Top-k 注意力机制即在计算注意力时只保留与当前查询 Query 最相关的前k个键 Key。对于top-k来说需要先计算qk矩阵然后分数排序计算量大且和当前的FlashAttention不兼容。近似算法(以 DeepSeek 的 Lightning Indexer 为例)先用极小的代价圈定一个可能包含 Top-k 的候选范围比如选出 60% 准的结果这一步会有些精度损失。只对这些选中的候选者维度数据单独抽取出来进行正式的注意力计算数据量、计算量大幅降低。从信息论角度提出Top-k 训练本质上诱导了模型的“熵减”使其在稀疏模式下更有效地聚焦信息。LLSA25.12 南洋理工top-logkTrainable Log-linear Sparse Attention for Efficient Diffusion Transformers论文首先分析了现有的Top-K 块稀疏注意力的复杂度。它分为三个阶段1. 压缩 Q/K 得到粗糙表示2. 计算粗糙相似度并选择 Top-K 块3. 进行稀疏注意力计算。结论即使注意力计算部分变快了但“选择阶段”的复杂度依然是 O(N2⋅B−2)O(N2⋅B−2)。当 NN非常大时这个二次方项会成为新的瓶颈。论文提出了对数线性稀疏注意力LLSA核心包括分层压缩Hierarchical Compression不只做一层压缩而是通过平均池化构建多层金字塔结构共O(logN) 层。分层 Top-K 选择Hierarchical Top-K Selection从最顶层的最粗糙令牌开始计算相似度。利用上一层找到的索引在下一层进行递归式的稀疏搜索。这使得选择阶段的复杂度从O(N2) 降低到O(N)。分层 KV 增强Hierarchical KV Enrichment为了弥补稀疏化带来的全局信息丢失Query 不仅关注最细层级的 Top-K 个 Key还会关注每一层级粗糙层中选中的 Token。这使得模型能以极小的K值捕获全局上下文。KV 重新加权KV Reweighting根据粗糙 Token 代表的块大小Bl对其权重进行补偿确保粗糙信息在注意力计算中具有正确的权重。高效 GPU 实现开发了专门的稀疏索引转置内核Sparse Index Transposition避免了 FlashAttention 在处理稀疏任务时必须构建庞大“二进制掩码Mask”的开销在训练和推理中均实现了真正的线性/对数线性扩展。如何学习AI大模型我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。1.AI大模型学习路线图2.100套AI大模型商业化落地方案3.100集大模型视频教程4.200本大模型PDF书籍5.LLM面试题合集6.AI产品经理资源合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】