谁有可以用的网站,建一个互联网平台需要多少钱,波兰网站后缀,网页设计的几种版式Causal LM 和 Prefix LM 的区别 刚开始#xff0c;本人没分清 Causal LM 和 Prefix LM 的区别#xff0c;不都是那样子续写么 其实真不是#xff01;虽然俩都能做续写#xff0c;但核心差在「怎么理解要续写的上下文」#xff0c;用大白话给你唠明白#xff1a; 一、核心…Causal LM 和 Prefix LM 的区别刚开始本人没分清 Causal LM 和 Prefix LM 的区别不都是那样子续写么其实真不是虽然俩都能做续写但核心差在「怎么理解要续写的上下文」用大白话给你唠明白一、核心区别上下文是“单向看”还是“回头看”1. Causal LM比如GPT、LLaMA纯“直男式”单向看就像你看书只能从第一页翻到最后一页翻到第3页时绝对回不去看第5页甚至连第4页都看不着。比如要续写“今天天气真好我们去____”看到“今天”时看不到后面的“天气真好我们去”看到“天气”时只能看到“今天”看不到“真好我们去”整个上下文都是“从左到右硬读”没法回头核对语义全靠记前面的内容。掩码矩阵以“今天/天气/真好/我们/去”5个词为例[1,0,0,0,0] # 今天只能看自己 [1,1,0,0,0] # 天气只能看“今天自己” [1,1,1,0,0] # 真好只能看“今天天气自己” [1,1,1,1,0] # 我们只能看前4个里的前3个自己 [1,1,1,1,1] # 去能看前面所有自己2. Prefix LM比如T5、UniLM上下文“能回头看”续写“单向写”相当于你先把“今天天气真好我们去”这段上下文完整读一遍前后都能看理解透了再开始续写续写时才不能看后面的内容。还是续写“今天天气真好我们去____”看到“今天”时能看到后面的“天气真好我们去”看到“天气”时能看到“今天”也能看到“真好我们去”上下文部分是“双向理解”像做阅读理解续写部分才是“单向写”像写作文。掩码矩阵同样5个词前缀就是前5个上下文[1,1,1,1,1] # 今天能看所有上下文 [1,1,1,1,1] # 天气能看所有上下文 [1,1,1,1,1] # 真好能看所有上下文 [1,1,1,1,1] # 我们能看所有上下文 [1,1,1,1,1] # 去能看所有上下文 # 要是加续写的词比如“公园”就变成 [1,1,1,1,1,0] # 今天看不到“公园” [1,1,1,1,1,0] # 天气看不到“公园” [1,1,1,1,1,0] # 真好看不到“公园” [1,1,1,1,1,0] # 我们看不到“公园” [1,1,1,1,1,0] # 去看不到“公园” [1,1,1,1,1,1] # 公园能看所有上下文自己完整掩码[1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,0] --- [1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,0] [1,1,1,1,1,1]二、举个更接地气的例子场景Causal LM 操作Prefix LM 操作续写“小明吃了____然后去玩了”看到“小明”时不知道后面是“吃了____然后去玩了”看到“吃了”时只知道前面有“小明”不知道后面要“去玩”先把“小明吃了____然后去玩了”全看一遍知道“吃了”之后要接东西接完还要“去玩”再开始填空翻译“我吃饭了”成英文从“我”开始逐字翻译翻到“饭”时忘了“我”是主语容易翻错先把“我吃饭了”整句话理解透谁做了啥再逐词生成英文“I ate rice”三、总结俩到底咋选想“开放式瞎聊、写随笔”用 Causal LM纯单向生成自由度高想“有固定上下文的续写/翻译/摘要”用 Prefix LM先吃透上下文再生成更精准核心差Causal LM 全程“一条道走到黑”Prefix LM 先“回头看明白”再往前走。