机关网站建设前期准备工作wordpress开发单页面
机关网站建设前期准备工作,wordpress开发单页面,论坛网站建设推广优化,网站群建设方案6前言
很多同学都把 DPO 和 RLHF 傻傻分不清楚#xff0c;认为 DPO 是 RLHF 的替代方案。
先说结论#xff0c;DPO 是介于 SFT 和 RLHF 之间的#xff0c;并不是完全的 RLHF 的替代。DPO 相当于 RLHF 的轻量版#xff08;模型数量少了一倍#xff09;
RLHF 存在模型训练占用…前言很多同学都把 DPO 和 RLHF 傻傻分不清楚认为 DPO 是 RLHF 的替代方案。先说结论DPO 是介于 SFT 和 RLHF 之间的并不是完全的 RLHF 的替代。DPO 相当于 RLHF 的轻量版模型数量少了一倍RLHF 存在模型训练占用资源多、训练不稳定、超参数敏感等问题。这也是 DPO 要解决的问题资源占比相对低训练稳定但是 DPO 的缺点是没有 RLHF 对大模型提升的上限高。1、回顾RLHF的PPORLHF 中的 PPO 中需要四个网络分别是Actor modelSFT 后的 LLM需要训练的 LLM参数可变Ref modelSFT 后的 LLM用于限制 actor model 的 KL 散度参数冻结RM model奖励模型用于强化学习的奖励提供参数冻结Critic model用于期望奖励生成参数可变而且除了 Actor model(LLM_SFT)需要预训练外还需要训练一个 RM model除此之外PPO 算法是需要做采样处理的我们知道大模型的生成是比较消耗资源的在训练过程中再做采样是非常消耗资源的。如果采样不充分很可能会导致大模型沿着不好的方向优化。DPO 主要是去掉了 Reward model通过优化损失函数实现直接偏好策略控制。2、RLHF的lossRLHF 的 loss 分为两部分第一部分是得到的奖励损失第二部分是模型未了防止训飞增加了一个 KL 散度来控制 LLM_rlhf 不要偏离 RLHF_sft 太多。上面损失函数可以通过数学证明和因式分解以及替换得到 DPO 损失函数如何做本人也不太懂可以看朱小霖DPO 是如何简化 RLHF 的3、DPO算法的原理和代码DPO 算法主要通过优化 RLHF 的算是函数来提升 LLM 的效果下面说一下整个 DPO 的几大组成部分模型模型由两个大模型组成一是 SFT 后的 LLM 需要学习的模型第二个和 RLHF 中一样需要一个 ref 模型防止模型跑偏结构也是 SFT 后的 LLM参数冻结。Loss从 loss 公式上看DPO 算法的原理很简单就是让模型在好结果上生成的概率尽量大于 ref 模型在坏结果上生成的概率尽量低于 ref 模型优点像对比学习尽量靠近正例远离负例。从这个角度看 DPO 就是通过一种贪心的算法来优化 LLM缺少探索更优的路线RLHF 做的。代码如下importtorchimporttorch.nn.functionalasFfromtransformersimportLlamaForCausalLM,LlamaConfigfromcopyimportdeepcopy torch.manual_seed(0)if__name____main__:# 超参数beta0.1# 加载模型policy_modelLlamaForCausalLM(configLlamaConfig(vocab_size1000,num_hidden_layers1,hidden_size128))reference_modeldeepcopy(policy_model)# dataprompt_ids[1,2,3,4,5,6]good_response_ids[7,8,9,10]# 对loss稍加修改可以应对一个good和多个bad的情况bad_response_ids_list[[1,2,3,0],[4,5,6,0]]# 转换成模型输入input_idstorch.LongTensor([prompt_idsgood_response_ids,*[prompt_idsbad_response_idsforbad_response_idsinbad_response_ids_list]])# labels 提前做个shiftlabelstorch.LongTensor([[-100]*len(prompt_ids)good_response_ids,*[[-100]*len(prompt_ids)bad_response_idsforbad_response_idsinbad_response_ids_list]])[:,1:]loss_mask(labels!-100)labels[labels-100]0# 计算 policy model的log problogitspolicy_model(input_ids)[logits][:,:-1,:]per_token_logpstorch.gather(logits.log_softmax(-1),dim2,indexlabels.unsqueeze(2)).squeeze(2)all_logps(per_token_logps*loss_mask).sum(-1)# 暂时写死第一个是good response的概率policy_good_logps,policy_bad_logpsall_logps[:1],all_logps[1:]# 计算 reference model的log probwithtorch.no_grad():logitsreference_model(input_ids)[logits][:,:-1,:]per_token_logpstorch.gather(logits.log_softmax(-1),dim2,indexlabels.unsqueeze(2)).squeeze(2)all_logps(per_token_logps*loss_mask).sum(-1)# 暂时写死第一个是good response的概率reference_good_logps,reference_bad_logpsall_logps[:1],all_logps[1:]# 计算loss会自动进行广播logits(policy_good_logps-reference_good_logps)-(policy_bad_logps-reference_bad_logps)loss-F.logsigmoid(beta*logits).mean()print(loss)最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】