校园网站建设意见表填写做新闻源网站采集站赚钱
校园网站建设意见表填写,做新闻源网站采集站赚钱,wordpress 注册 登陆,常州微网站开发预训练#xff0c;和前代版本相比#xff0c;高质量预训练数据集从之前的7万亿 token 扩⼤到了 18 万亿 token
后训练#xff0c;用了100 万个样本的精细监督微调#xff0c;以及包括离线学习 DPO 和在线学习 GRPO 在内的多阶段强化学习
开源权重版本包含 0.5B 1.5B 3B 7B …预训练和前代版本相比高质量预训练数据集从之前的7万亿 token 扩⼤到了 18 万亿 token后训练用了100 万个样本的精细监督微调以及包括离线学习 DPO 和在线学习 GRPO 在内的多阶段强化学习开源权重版本包含 0.5B 1.5B 3B 7B 14B 32B 和 72B 都是稠密的参数规模的基础模型及指令微调模型还有两个api模型。Qwen2.5-Turbo 和 Qwen2.5-Plus这两个是moe的Qwen2.5-72B-Instruct 超越了多款开源及私有模型并与参数量约其 5 倍的最先进开源模型 Llama-3-405BInstruct 性能相当1、qwen2.5主要特性• 尺⼨更优相较于 Qwen2Qwen2.5 在 0.5B、1.5B、7B 和 72B 的基础上回归了 3B、14B 和 32B 模型这些模型在资源受限场景下更具性价比且填补了当前开源基础模型领域的空⽩。Qwen2.5-Turbo和 Qwen2.5-Plus 在准确率、延迟和成本之间实现了卓越平衡。• 数据更优预训练与后训练数据显著改进。预训练数据从 7 万亿 token 增加至 18 万亿 token重点关注知识、代码和数学。预训练采⽤分阶段进⾏以支持不同混合比例间的过渡。后训练数据量达 100 万条⽰例涵盖监督微调SFT, Ouyang et al., 2022、直接偏好优化DPO, Rafailov et al., 2023及群体相对策略优化GRPO, Shao et al., 2024各阶段。• 使⽤体验更佳消除了 Qwen2 在使⽤中的多项主要限制包括更⻓的⽣成⻓度从 2K token 增至 8K token、更出色的结构化输入输出支持如表格和 JSON以及更简便的⼯具调⽤。此外Qwen2.5-Turbo 支持高达 100 万 token 的上下文⻓度。2、架构和Tokenizer对于开源的dense模型用的是基于transformer的decoder架构(解码器only-decoder即符合scaling参数量越大。loss越低性能越好这个架构包含几个关键组件1、⽤于高效 KV 缓存利⽤的分组查询注意⼒ (GQA什么是GQA在标准的 Transformer 多头注意力MHA中Query (Q)、Key (K)、Value (V) 的头数是一样的。比如你有 32 个头就需要计算 32 个 K 和 32 个 V。GQA 的做法 它把 K 和 V 的头数分组。比如还是 32 个 Q 头但只保留 8 个 K 和 V 头。每 4 个 Q 头共享同一组 K 和 V。优势 KV Cache 的显存占用大幅减少可能减少到原来的 1/4 甚至更多不仅省显存还因为数据读取量变小推理速度显著提升。对效果的影响 相比于 MQA多查询注意力所有头共享一组 K/VGQA 保留了更多的“头”的信息因此对模型最终的效果准确率影响非常小几乎可以忽略不计。2、⽤于非线性激活的 SwiGLU 激活函数 (Dauphin et al., 2017)SwiGLU 的公式 它不仅仅是把数字“正负化”像 ReLU 那样把负数变0而是引入了门控机制。它把输入向量分成两份一份经过线性变换后做 Swish 激活然后与另一份线性变换后的向量做逐元素相乘。来源 源自 Google 的 PaLM 模型论文。优势 数学上证明SwiGLU 具有更强的表达能力但代价是增加了参数量通常需要把 FFN 的隐藏层维度扩大一点来补偿。实验表明换用 SwiGLU 后模型在相同参数量下的困惑度通常会更低意味着模型“更聪明”。3、⽤于编码位置信息的旋转位置嵌入 (RoPE, Su et al., 2024)详细解读模型本身是不懂顺序的“我爱你”和“你爱我”字一样所以需要注入位置信息。早期方法 BERT 用的是绝对位置编码直接加一个位置向量GPT 用的是学习到的绝对位置。这有个缺点如果训练时最长只有 1024推理时到了 1025 就崩了外推性差。RoPE 的做法 它通过绝对位置的复数旋转使得 Query 和 Key 在做点积注意力计算时自然地包含了相对位置信息。也就是说它把位置信息“融入”到了向量的方向中。4、注意⼒机制中的 QKV 偏置在神经网络的线性层 ywxb中b 就是偏置。争议 在 LLaMA 1 的架构中为了简化结构和某些理论假设去掉了 QKV 里的 Bias即 b0。后来的 LLaMA 2/3 以及 PaLM 等模型也延续了这种去偏置的设计。Qwen 的选择 Qwen 系列选择加上 QKV Bias。虽然在超大模型下Bias 对性能的影响相对较小但它增加了模型的灵活性。作用 偏置项可以帮助模型更容易地调整数据的分布中心相当于给每个注意力头一个“初始的平移自由度”。对于中小参数量的模型保留 Bias 通常有助于微调收敛和稳定性。5、采⽤预归⼀化以确保训练稳定的 RMSNorm预归一化意思是归一化的位置往前放先把输入归一化再送入网络RMSNorm均方根归一化意思归一化的方法传统层归一化计算均值和方差RMSNorm 去掉了计算均值的部分只保留方差均方根计算更快详细解读Pre-Normalization预归一化Post-Norm老式 Attention - Add - Norm - FeedForward - Add - Norm。这容易导致梯度在深层网络中消失很难训练深模型。Pre-Norm新式 Norm - Attention - Add - Norm - FeedForward - Add。先把输入归一化再送入网络。这让梯度流动非常顺畅是现在大模型能训练得动的基础。RMSNorm均方根归一化LayerNorm层归一化会计算均值和方差计算公式比较繁琐。RMSNorm 去掉了计算均值的部分只保留方差均方根。优势 计算速度更快省了一次减法且在 LLM 的实际效果中RMSNorm 和 LayerNorm 的表现几乎一样好。这也是目前 LLaMA 架构的标准配置。然后基于闭源的api模型他们用的是moe架构通过将标准前馈网络 (FFN) 层替换为专⻔的MoE层每层包含多个FFN专家以及⼀个将Token分配给前K个专家的路由机制。遵循的Qwen1.5-MoE 的方法实现了细粒度专家分割 (Dai et al., 2024)和共享专家路由什么是细粒度专家分割在传统的 MoE如最早的 Switch Transformer中一个 Token 通常会被路由给一个大的专家块。而细粒度专家分割指的是将原来的一个大专家拆解成多个更小的、更细粒度的子专家。具体做法增加专家数量减小单专家规模 比如原本一层可能有 4 个大专家现在将其拆分为 64 个小专家。Top-k 路由 每个 Token 不再只由 1 个专家处理而是可能被分配给这 64 个小专家中的前 K 个例如 Top-2 或 Top-4。上采样与下采样 Qwen1.5-MoE 实际上采用的是一种更具体的细分策略通常参考 DeepSeek-MoE 或类似的设计将 FFN 的维度切分成更小的碎片或者将原本大的专家矩阵拆分。作用提高专家利用率 防止模型出现“专家坍缩”或某些专家长期闲置的情况。那用多个专家最后结果到底怎么定在 Token 进入专家之前路由器门控网络/Gating Network会计算这个 Token 与所有专家之间的匹配度通常通过点积计算并经过 Softmax 归一化。路由器会为这 Top-K 个专家分别生成一个权重分数。模型会将各个专家输出的结果向量乘以对应的权重然后相加。然后还要再加上共享专家路由得到最终结果何为共享专家路由含义在标准 MoE 架构中所有的专家都是“路由专家”即 Token 必须通过门控网络被“分发”给特定的专家未被选中的专家不参与计算。而共享专家是指在 MoE 层中强制保留一部分通常是 1 个或 2 个专家它们不经过路由选择而是处理该层所有的输入 Token。具体做法在每个 MoE 层中包含两类专家共享专家 无论输入是什么这部分专家都会参与计算用于存储和处理通用的、全局的知识例如基本的语法结构、常识推理。然后开始看他的Tokenizer分词器在分词方⾯qwen2.5采⽤了 Qwen 的分词器 (Bai et al., 2023)它实现了字节级字节对编码 (BBPE,Brown et al., 2020; Wang et al., 2020; Sennrich et al., 2016)拥有 151,643 个常规词元。与之前的Qwen 版本相比我们将控制词元从 3 个扩展到了 22 个增加了两个⽤于⼯具功能的词元并将其余部分分配给其他模型能⼒。什么是字节级字节对编码 (BBPE在 BBPE 出现之前主流算法是 BPE (Byte Pair Encoding)。它的逻辑是统计语料中最常一起出现的两个字符把它们合并成一个新词。BPE 最大的痛点是它处理不了“生僻字”和“乱码”。BBPE就是为了解决这个问题PE 的核心思想非常粗暴且有效既然字可能会认不全那我就退回到计算机最底层的“字节”层面来处理计算机里的任何数据无论是中文、英文、火星文还是图片最终存储时都是一串 0 和 1也就是 字节。1 个汉字通常占 3 个字节1 个英文字母占 1 个字节。BBPE 的做法是第一步把所有文本都“砸碎”成字节。不管是 中 还是 a全部变成一串数字0-255。第二步在这些字节上进行 BPE 合并。它不再合并“字”而是合并“字节序列”。第三步构建词表。最终生成的词表里全是字节的组合。Control tokens从3个增加到22个为了让模型不仅仅是瞎聊天而是能干正活比如写代码、当助手、调用工具我们需要在文本里插入一些它专门训练过的特殊符号。这些符号的作用是控制模型的行为而不是传递语义信息所以叫“控制词元”。