在阿里云上建立网站的步骤wordpress调用指定菜单
在阿里云上建立网站的步骤,wordpress调用指定菜单,成都百度推广电话号码是多少,天津网站建设 Wordpress本文从非技术角度详细解析了大模型后训练的核心内容#xff0c;包括预训练的产物和后训练的微调方向#xff08;如SFT、RL、PPO、Lora、Adapter等#xff09;#xff0c;以及如何通过正向传播、反向传播和梯度下降算法调整参数。文章还讨论了全量微调和局部微调的不同方法&…本文从非技术角度详细解析了大模型后训练的核心内容包括预训练的产物和后训练的微调方向如SFT、RL、PPO、Lora、Adapter等以及如何通过正向传播、反向传播和梯度下降算法调整参数。文章还讨论了全量微调和局部微调的不同方法以及后训练在降本增效场景中的应用。通过这些讲解读者可以更好地理解大模型后训练的基本原理和操作方法。一、写在前面大模型的后训练都在训练些什么sft、rl、ppo、lora、adapter这些算法开发们口中的专属名词都代表着什么意思本文将尽可能从非技术角度一文帮你读懂大模型后训练。同时这也是继去年发布《非技术背景一文带你读懂大模型》后时隔一年多推出的非技术系列第二篇文章啦。也确实看到大家对于此类非技术向讲解的科普文比较感兴趣希望这篇新文章能一样受大家的喜欢。二、简单回顾首先我们先简单回顾下《非技术背景一文带你读懂大模型》中提到的大模型的预训练方式。当时我们引入了两个比较重要的概念一个是向量机制一个是attention机制。向量机制当时我们用特征用诗歌中的意向来进行比喻和理解。而attention机制我们则从阅读文章时脑海中不断形成的网状记忆来进行理解。那么其实大家当时有没有产生一个问题我们进行大模型的预训练到底实际训练的是什么以及得到的训练产物是什么呢三、预训练到底训了什么我们经常听到说一个模型有多少多少亿的参数什么7b600b甚至上千b。这些参数其实就是大模型预训练后沉淀下来的产物了。而参数本身其实并不神秘简化到极致的话我们拿ykxb其中的k和b就是参数。x就是输入y就是经过参数计算后的输出。所以实际大模型训练中沉淀下来的其实也就是这些参与到计算中的参数。简单来看的话我们可以认为大模型其实就是个巨大的分模块的矩阵方程组。输入的信息x在经过这个巨大方程组内诸多参数计算后得出输出结果y。在未进行训练之初这个巨大方程组中海量的参数会有一个初始的随机值。然后再经过一系列的预训练策略和算法比如掩码生成盖住部分词让模型来猜、预测下一个词等预训练手段后参数也逐渐在几个环节里同步逐渐收敛沉淀了下来第一个是向量化的阶段。这个环节主要负责将输入的信息内容转化为向量化表达。因为后续的推理计算都是在建立在向量化的基础之上所以这个环节会在最前置的环节。这个转化的过程可以理解为对应着一套规则这套规则即为预训练在该环节沉淀下的参数。比如我们输入了“苹果”两个字那么在经过这套参数计算后将把“苹果”转为比如[0.1、0.2、0.3…]这种向量化特征表达。这里实际是会存在一个巨大的升维的方程而这个方程里的的参数则会在预训练过程中不断收敛固定下来。然后是在attention层内attention这个概念我们在前文里介绍过本质上是要把输入的内容彼此之前建立关联形成类似“网状记忆”的效果。实际这里会有多个attention层来承接每一个attention层内均会存在qkvquery查询、key键、value值三个维度的参数矩阵。这里会把上一步我们转换得到的向量结果在每一层里的qkv三个维度上展开展开的目的实际是要找到“苹果”这个实体在向量化后与其他输入序列实体中的潜在关联关系和权重的个计算。有点拗口打个比方。“今天我吃了水果”那么在这个处理过程里会让“今天”“我”“吃了”“水果”彼此之间都带上彼此的向量特征信息和权重以保证在后续的推理时不是仅因为“苹果”而预测下一个token而是因为关联了“今天我吃了水果”这整句话的语义以及“今天”“我”“吃了”“水果”这几个实体彼此的向量特征进行的综合加权后的预测结果。这其实也是transformer架构的核心也是attention is all you need这个理念的核心。然后是在ffn前馈神经网络层内这里会和attention层一一对应每层attention后都会紧跟着一层ffn这一阶段主要做的是把attention阶段计算得到的关联结果再经过大模型学习沉淀下的“通识知识和关联特征”做一次“升维再降维”的处理。这里会有两个矩阵方程来完成这件事。这一步的主要目的是尽可能的放大并聚合特征把过程中没必要的杂音过滤掉聚焦关键信息让模型的输出更精准。那么搞懂了预训练的产物我们对于后训练阶段到底训练的是个啥就好理解了本质上后训练就是通过各种“工具和方法”对预训练阶段经过以上三个环节不断收敛沉淀的这些“矩阵方程组内的参数”做针对性调整、优化使得大模型的输出更加符合业务层面的预期的过程。四、后训练的微调方向在后训练方向上我们可以简单区分为两个大的方向分别是监督学习微调sft、强化学习微调rl/rlhf这两个个方向其实我们可以拿老师教授学生学习来打比方首先我们把预训练的模型看作是一个有一定基础的有一定通识能力的学生。而教会这个学生提高成绩是我们后训练微调的目标。4.1监督学习微调SFT监督学习微调则相当于老师给了学生一堆的题目和答案标注数据来让学生模仿答案的输出来进行学习。这个过程里来自于人工整理的“标准答案”至关重要。人工整理出“输入问题”和“理想预期回复结果”的成对数据模型通过学习这些成对数据来不断调整并收敛参数让自己输出的内容尽可能贴近“标准答案”。SFT是大模型后训练中最常用的方式因为这种方式首先定义很明确可以很容易有来自业务侧明确的输入回答结果的好与坏因主观因素过多可能不好定义但预期理想结果这个相对来说还是好给出的。其次这种方式所需要的数据量一般不需要太多就可以在测试集上立竿见影的看到效果所以如果是想快速满足业务诉求这种方式会比较快捷且相对来说可控些。但缺点其实也很明显因为这种方式更像是让模型在死记硬背试题答案且虽然预训练的模型具备一定的泛化性但如果是遇到了超出训练集的case其效果就要大打折扣模型的推理能力和创造力会因这种“死记硬背”而交一大笔对齐税Alignment Tax另外这里补充一个小知识点。大家有没有好奇过transformer架构下大模型实际做的是通过计算概率来预测下一个token。所以实际预训练后的模型本质上是一个“续写模型”才对。但如果遇到一个输入“今天吃了什么”目前的大模型会对问题进行友好的回答而不是紧跟着输入来继续续写。这里答案就是因为在经过预训练的模型都会先进行一次“冷启动”也叫指令微调。冷启动其实就是拿着几千到几万条高质量的问答、指令遵循数据用SFT的方式监督微调模型这样才让模型从一个“续写模型”变为了一个“问答模型”。ok以上基本就是监督学习微调的内容了。不过可能会有同学好奇有监督学习微调那么有没有无监督学习微调呢有的兄弟有的。无监督微调UFT当然行业内更多是叫作增量预训练CPT这里也打个比喻就好像是老师觉得学生的语文有点不太好所以给了学生大量的古诗作文等语文相关的知识让学生自己学习自己去悟以加强语文这块的垂域知识能力。其实这一过程跟预训练很像包括使用的训练策略也一样是使用比如掩码生成盖住部分词让模型来猜、预测下一个词等方式来完成。只是在阶段上预训练是从0到1从一堆随机参数里让模型学会语言规律和构建通识能力。无监督微调是从1到N在一个已完成预训练有了一定基础和通识能力上的模型上加强训练强化的是模型在某一个垂域下的知识丰富度。所以这里行业内对于这个过程算不算作后训练各有说法属于介于预训练到后训练中间一环所以这里我就不多加定义了也就没有把他单独领出来算作后训练的一个大类4.2强化学习RL/RLHF这种方式可以理解为老师给了学生一堆的题目来做并对学生输出的结果进行打分。然后让学生从评分中自我学习自己悟出优化的方向。RL的方式其实在机器学习中很早就在应用了。比如像之前的alphaGo zero就是通过对模型每一步下棋的结果进行打分来让alphaGo zero在每一步的下棋过程里逐渐领悟到诸多的下棋技巧。但在llm中我们发现对于结果的好坏有点没法像下象棋围棋贪吃蛇等对于大模型的决策过程有一个相对精准的打分了。比如游戏里吃到金币十分吃掉对面的卒加5分等。因为模型的输出是一段口语化的回复针对这个回复去打分会掺杂很多主观的成分。所以这时候我们就引入了人类打分的概念这就是RLHF里HFhuman-feedback的由来了。最初的RLHF其中human-feedback部分是由人类来完成。但这种方式太过于耗人了且不同人类之间的评价机制过于主观反而效果不好。直到openAI于2017年提出了PPO的强化学习算法并在2022年首次将其应用在instructGPT的强化学习流程中并验证了其可行性至此才正式拉开了大模型人类反馈强化学习RLHF的序章。4.2.1 PPO算法这里我尝试拆解下PPO算法在大模型RLHF中的过程和思想拆解过后大家估计就对RLHF这个逻辑清楚很多了。我们可以这么理解下首先我们前面讲过RLHF本质上是让老师给了学生一堆的题目来做并对学生输出的结果进行打分。然后让学生从评分中自我学习自己悟出优化的方向。那么首先我们需要有一个被训练的学生这就是PPO在RLHF中的Actor策略模型。然后我们还得有个老师来对学生做出的题进行打分。这一打分当然可以由人类老师进行但出于上面说的效率低主观性强的点所以这里我们引入一个机器人老师来给学生打分这就是PPO在RLHF中的RM奖励模型。通常这个模型是由标注数据后训练的个模型。然后我们还可以发现单纯我们通过对于学生的做题结果打分似乎没法细化到衡量学生在做题过程中是好还是坏的。打个比方学生答题时写了一句完整的话“我今天吃了一个又红又大的菠萝”。首先整句来看肯定是有问题的因为菠萝怎么也不会跟又红又大来挂钩。但如果我们因此对学生写下整句过程里的推理过程打负分的话似乎对于学生写下前半句的推理过程不太公平。。。这就好像老师给学生判了个60分但没有告诉学生扣分点学生只能盲猜自己需要优化的点。盲猜那就存在一定的随机性啦就会造成学生的学习成绩起伏不定始终稳定不下来。提现到模型上就是训练过程参数震荡剧烈收敛的也及其的慢。所以这时候我们还需要再引入一个更强的机器人老师这个老师会在学生写题时紧盯着学生的每一步操作每一步都会针对当前已输出情况给出一个预判的得分出来。这样学生就可以在收到第一位机器人老师打出的总分的同时也收到第二位机器人老师针对每道题甚至每个解题步骤给出的预判总分波动图这样学生就能更快的明白自己是在哪个环节那个步骤出了问题也就知道该如何加强学习了。而这个就是PPO在RLHF中的Critic价值模型。通常这个模型也是一个由标注数据后训练的个模型。与RM不同的是打分的阶段和目标不同。一个是整体评判一个是加速收敛。然后学生在大量做题提高分数时虽然我们引入两个机器人老师来帮助学生加速收敛提升学习成绩但在学习过程里因为模型参数变动很容易引起全局的输出结果变差。学生的学习也容易出现为了学习一个小知识点结果混淆了更重要知识点。这个有个名词叫灾难性遗忘。为了避免这种情况我们又复制出来一个学生跟被训练的学生一起做题。并把这个复制体学生的做题结果与被训练的学生做题结果做对照并设定一个奖惩机制如果差距过大就惩罚被训练的学生以此避免学生在学习过程里为了捡了芝麻丢了西瓜的情况。而这个复制体学生实际就是PPO在RLHF中的Reference参考模型。把初始的Actor策略模型冻结参数作为训练时的输出参照并根据输出参照来计算出一个KL惩罚约束来保证针对Actor策略模型的每步训练调参都不会与初始的输出差距过大。4.2.2 DPO算法ok讲完了PPO其实对于RLHF是个啥也就基本清楚了。不过这里我还想再展开讲讲后面出现的些迭代算法也挺有意思的。不感兴趣的同学可以直接跳过这part。首先PPO还是很强大的不然也不会有chatgpt的诞生。但其缺点其实也很明显我们可以看到为了优化一个模型需要搞四个模型去跑流程相当复杂及其消耗显存。那有没有什么更好的方案呢这时候在2023年斯坦福团队提出了另一种思路PPO是为了判定模型输出的结果好坏搞出来两位机器人老师分别针对整体和过程来打分以此让学生清楚自己的优化点。那如果我们极端些把具体的评分抽象为好答案的概率和坏答案的概率是不是就不需要再引入这么多模型了呢于是DPO直接偏好优化算法应运而生。还是用“老师”和学生的比喻PPO的两位机器人老师需要给学生的输出打两个分数一个是整体分数一个是当前过程中输出的个分数并需要对学生输出的“我今天吃了一个又红又大的菠萝”对整体打六十分并对前半句打高分对后半句打低分。而在DPO中直接由人类老师入场有点像SFT直接告诉学生“我今天吃了一个又红又大的菠萝”是一个坏答案“我今天吃了一个又红又大的苹果”是一个好答案。并让模型自己努力提升输出后者的概率降低输出前者的概率。这里要说明下其实这个形式有点像“加了badcase的SFT”但其本质和SFT是不同的。SFT是让模型按标准答案一个字一个字去临摹抄标准答案。而dpo目标是让学生分清好坏自主偏向好结果的概率。所以这样一来DPO中就只需要有两个模型在了。一个是学生也就是DPO中的Actor策略模型。一个是学生的复制体防止学生跑偏的也就是DPO中的Reference参考模型。省去了两个吃显存的大户两位机器人老师RM奖励模型和Critic价值模型。所以DPO对于PPO不仅模型少了流程也简化轻便了很多。训练起来更高效、稳定甚至在一些场景下可能效果会比PPO更加的好。这也是为啥DPO目前被广泛应用因为不需要太多算力不需要单独训练奖励模型和价值模型也不需要很复杂的数据集标注即可即便是中小团队也能快速落地。但其缺点也是显然的不像PPO那样具备这么强的主动探索的能力更适合些偏好明确的领域目标。4.2.3 GRPO算法消化完了PPO和DPO之后我们不妨再思考下。有没有可能有种方式既保留直接偏好优化的特性又在主动探索的方向上进行一些创新呢这里不得不提一下deepseek啦deepseek团队在2024年交出了另一份答案借鉴DPO的相对比较思路但仍保留PPO中的打分机制让模型保持探索能力。那么他们是怎么做到的呢首先回顾下上面提到的PPO和DPO的方式PPO的训练方式相当于通过打分让学生自己优化自己探索但需要RM和Critic两位机器人老师来全程评估并需要复制学生本体来作为参照四个模型一起跑又重又复杂。而DPO的训练方式缺少了探索指定goodcase和badcase但砍掉了RM和Critic两位机器人老师只靠初始的学生复制体来约束虽然轻量且省算力但创造力不足。而GRPO做了一个聪明的取舍继续保留RM这位针对结果打分的机器人老师但砍掉了Critic这位针对过程打分的老师。前面我们也知道Critic这位老师其实是要帮助学生在训练过程里明白中间步骤的得失以此来加速模型的参数收敛的那没有了Critic后怎么解决这部分问题呢这里GRPO聪明的提出了个“分组相对策略优化”的概念。还是用老师学生来比喻。让学生也就是actor策略模型一次输出多个结果并让机器人老师RM奖励模型给这组答案进行逐个打分并排序。然后学生在进行优化调整时先看下这组答案的个平均得分再根据每个答案与这个平均得分的相对差距来作为优化方向的参考。这样一来即比PPO省因为砍掉了Critic这个模型又比DPO灵活因为保留了RM模型可以支持模型自主生成探索。同时还捎带着解决了个RM打分不准带来的震荡问题。这个怎么理解呢PPO中的RM打分就好像老师给学生打了个总分总分的准确率很关键万一打错就会对学生的自主探索产生不小的误导。而在GRPO中的RM打分就好像老师给学生的一组回答打了个分。虽然可能老师个别题打分打错了但对这组排序整体的影响其实并不大也就能最小限度的减少因RM打错分给学生带来的自主探索的误导影响。ok讲到这里那对于大模型后训练这块的方向上已经基本讲完了。总体来说就是大致两个方向SFT这种让学生临摹答案的方式来优化训练和RL/RLHF这种通过打分或偏好让学生自己探索的方式来优化训练。前者起效快周期短省算力但探索性不强。后者周期长一些但能让模型有自主探索性保证一定的泛化性。五、后训练的参数微调方法讲完了大模型后训练的两个方向SFT和RL/RLHF那我们可以接下来思考下有了训练优化方向后那模型里几十亿甚至上千亿的参数如何去变动更新来让训练优化朝着我们预期的优化方向进行呢首先既然确定了优化目标那我们就得知道当前模型的表现与预期目标到底相差有多远这样才能更好的指导接下来的优化。这里我们仍然用老师和学生的方式来比喻学生拿到试卷逐个进行答题最终提交试卷。这个过程对于模型相当于一次完整的输入和输出在模型训练中称为一次“正向传播”的过程。然后老师拿到学生的试卷根据预期结果计算总分。计算的时候根据我们需要让学生加强的方向不同SFT/RLHF设定不同的预期并计算学生的得分以及与预期分数之间的差距。这个差距在模型训练中称为“loss值”。然后拿到分数差距后老师会对照学生的错题点逐一排查推断学生在做题时的可能的知识误区和具体哪些知识没有掌握等。比如之前对于菠萝错误判断为了红色那就判断学生其实对于菠萝的颜色理解的有问题。这个环节在模型训练中称为“反向传播”。对比“正向传播”是根据输出时与预期的“loss值”来反向推导模型在推理过程中每个参数对于loss值的贡献度也称之为梯度来找到这些真正导致问题的参数。然后拿到具体的错误点和知识误区后下一步就是学生针对性进行改进。比如对于菠萝的颜色理解有误那就修正。每次改进都能逐渐的缩小loss值比如从认为菠萝是红色的到亮黄色再到焦黄色。这里实际模型训练是采用了“梯度下降算法”根据反向传播时计算出的每个参数的梯度让模型一点点修正参数每次修正都会让loss值变小直到模型按我们的预期输出。整体逻辑就是先通过正向传播以及训练预期计算出对应的loss值然后通过反向传播计算参数梯度然后通过梯度下降算法逐渐让参数收敛沉淀并输出符合我们预期的结果。六、后训练的参数微调范围掌握了如何调整参数后新的问题出现里。前文其实也提到了后训练其实就是调整预训练阶段收敛沉淀下的参数但预训练的模型参数动辄几十亿甚至上千亿的参数。如果我们只是想对模型微调增补些垂域业务知识难道要把全部的参数更新一遍吗6.1全量微调当然这肯定是可行的。所以这里就有第一种方式也就是全量微调Full Fine-tuning。全量微调其实是模型后训练时最直接最传统的一种方式首先通过前文的两种后训练方向SFT和RL/RLHF来让学生找准自己优化的目标然后通过正向传播与与优化目标进行对比计算出loss值然后反向传播计算梯度然后使用梯度下降等算法动态更新全量参数让学生的答题结果持续逼近预期方向。在这个过程里持续收敛沉淀参数变化。但这个过程由于是全量微调学生在自主探索过程中可能不仅是在学科知识这块进行知识的重建对于自身的一些东西比如人生观价值观等都会跟着进行重组。这就比较可怕了。。。比如学生可能只是为了要记住“菠萝是黄色的”但竟然因此调参数把自己的性别搞反了。。。这个前面讲PPO的时候也提过全量微调的方式更容易出现这种捡了芝麻丢了西瓜的问题。所以全量微调确实有且更新彻底上限很高但缺点就是耗时耗力另外就是极容易出现这种灾难性遗忘的问题了只有大厂在追求极致效果的时候才可能会出现。6.2局部微调那么除了全量微调的方式有类似局部微调的方式吗有的兄弟有的。局部微调PEFT/高效参数微调的出现就是解决这类问题。首先我们之间讲过大模型的内部是分模块分层的但局部微调并不是像我们一般理解的把大模型的某一部分或某些层冻结后去调剩下层的参数而是采用更聪明的一种办法来解决这个问题既然直接动大模型的原本参数极容易出现灾难性遗忘等问题那我们给大模型接入一个增量外挂插件只去调外挂插件里的内容不就行了6.2.1Adapter Tuning于是在2019年由Houlsby提出了Adapter Tuning的方法核心就是在transformer的每一层的attention和ffn之间串联的形式新加一层可训练的向量级的适配器在进行微调时仅微调适配器中的参数不动原有预训练阶段大模型的参数以此来满足微调的诉求。与刚才的全量微调让学生重新学习相比就好像给学生新发了一个智能笔学生不需要去重新学习这根笔会在学生下笔回答问题时每一步都会经过智能笔的矫正思路。这样一方面即完成了对于业务微调的诉求又能不动模型的原有参数。6.2.2Low-Rank Adaptation然后在2021年微软研究院也新提出一种技术。Low-Rank Adaptation也就是我们熟知的lora了。这项技术有点像adapter也是给大模型新加了个增量外部插件。不过跟adapter不同会在attention层或ffn层并联的方式插入两个小矩阵参数量一般不到原模型的1%。在模型推理时与attention或ffn层同步输出加权后合并结果输出。这种形式有点像给学生发了一本专业笔记在学生进行答题时让学生按需去查阅这份笔记并结合自身的基础知识这样就可以回答的更精准。这两种方式都是可以实现热插拔式的效果比如可以灵活给模型切换适用于不同垂域业务场景的lora和adpter插件以此快速适配不同业务场景。在stable difussion盛兴的那段时间里不知道你有没有尝试过下载不同画风的lora。其实他们本质上也是一个个用某种画风的大量图片持续反向传播梯度下降的方式喂出的个lora插件。相信有过这段炼丹经历的小伙伴能更容易理解这里的概念~6.2.3prompt tuning除了lora和adapter这里也再提一个更加轻量级的后训练工具prompt tuning。他也是在2021年由Liu等人提出。首先需要先说明下prompt tuning提示词微调不等同于prompt engineering提示词工程。提示词工程这个大家应该比较熟知了就是在给到大模型的输入中在word层面增加些描述限制之类的东西。而prompt tuning提示词微调则是在输入内容转为向量化这一阶段起效的个产物。不修改输入的内容而是在输入内容的前缀或中间插入一段特殊的向量特征以此来提升模型的输出准确率。这里用学生答题来比喻的话则prompt tuning更像是一个简短的小抄贴在卷子的最前方。学生在答题时会先看一遍这个小抄再答题以此帮助学生在答题时更加准确。但这种方式虽然足够轻量不需要像lora和adapter引入新的矩阵只需要在每次输入时插入一段训练好的固定的向量即可但其适用性并不高稍微处理些更泛化更复杂的任务就会抓瞎。以上我们基本就对大模型后训练的方向选择、调参方法、调参工具了解清楚了。七、后训练的降本增效场景不过前面所讲的大模型后训练我们都是预设了模型后训练的目的是让模型回答更精确或回答更符合业务场景预期来的。但实际后训练还有另外一种目的降本增效。这里我不打算展开讲因为大多数同学更多接触的是前者。但既然咱们文章讲的是一文读懂大模型的后训练似乎不提一下也不够全面。所以这里再简单展开介绍下大模型后训练出于降本增效的三种方法蒸馏、量化、和剪枝。首先大模型降本增效的目的其实就是减少模型推理时的算力消耗。那么这三种方法也都是围绕着这一目标进行的只是各自侧重点不同。对于蒸馏我们可以理解为原先的学生是一名大学生学习的知识比较多参数很大思考问题时虽然思考的长远但比较花费脑力和时间。这时候我们就再找一名初中生初中生把大学生当成老师去学习这名老师在回答问题时每一步解答问题的思路和步骤以此把自己提升到一个大学生的水平。就比如我们看到个模型DeepSeek-R1-Distill-Qwen-7B实际意思就是这本身是一个7b的qwen模型通过大量学习600B的deepseekR1的模型输出结果展现出了类似deepseekR1的输出效果。但模仿的就是模仿的肯定实际准确率之类的都会打折扣。然后对于量化这个理解上会更加简单些。实际就是降低模型的参数精度比如从float32调低变为了int8/int4比如从1.140023简化为了1.14。参数量没有变比如原先是600b量化之后还是600b但模型文件会缩小不少且由于精度下降其推理时的算力大大减少。但缺点就是这种强制抹零行为有时候抹的可能正好不是地方某些场景可能会出现错误的情况。然后是剪枝这个简单理解就相当于学生脑子里除了学习之外还塞了很多游戏啦娱乐啦等等其他杂七杂八的知识那剪枝就相当于把这些答题场景下用不到的知识都去除掉这样在模型推理时自然就会更加简单直接。八、总结ok到这里大模型后训练的全部内容基本讲解完毕。我们再回顾总结梳理一遍知识点预训练从0到1输入大量训练数据让模型以自监督学习的方式学会通用知识沉淀下庞大的参数。相当于一位已经有一定知识储备的学生。后训练从1到N通过调整预训练沉淀下的庞大参数来让学生持续在某一方面专项突破加强。后训练的方向SFT监督学习让模型临摹标准答案快速见效但泛化性弱容易有对齐税RL/RLHF让模型根据人类偏好打分来自主探索优化学习泛化性更高但训练难度稍高。RLHF的经典算法PPO以及后续的DPO、GRPO各自在奖励模型、策略模型、参考模型上做出的取舍和创新设计。后训练的调参方式先正向传播计算loss值再反向传播计算梯度通过梯度下降算法持续调参来收敛loss值。类比学生就是做卷子打分通过打分反推扣分点并持续优化扣分点来提升分数。后训练的调参范围全量微调Full Fine-tuning所有参数参与到正向传播和反向传播的loss值计算中局部微调PETF大模型参数不动通过给大模型外接控制插件仅控制插件内的参数参与到正向传播和反向传播的loss值计算中。局部微调的几种形式并联形式的lora、串联形式的adapter、在向量阶段插入的prompt tuning。另一种后训练方向下的应用蒸馏拿个小参数模型模仿并替代大模型量化参数量不变但降低参数精度剪枝删除冗余参数。九、结尾本文的讲解尽可能避开了过于技术层面的讲解目的还是帮非技术北京的大家真正能读懂后训练而不是去学会后训练。如果大家确实有实际场景要落地还是最好再结合对应方向的专门技术文章再深度去了解本文更多是为你打下后训练这块一个整体认知框架和基础。说实话这点还是挺重要的。因为我也看过不少后训练的科普文能发现有些要么是过于技术视角动不动一堆公式和算法。要么是在概念理解分类上就有问题比如把sft和lora放在一起讲解很容易让人误以为这两个名词是一类工具。。。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】