如何用dede做带下单的网站电脑做的本地网站手机看
如何用dede做带下单的网站,电脑做的本地网站手机看,北京大龙建设集团有限公司网站,免费网站设计模板#xff08;草稿大纲#xff09;一、基础知识#xff1a;self-attention 自注意力机制怎么用数据表示文字#xff1f;编码为向量#xff1a;*插入解释 one-hot Encoding缺点#xff1a;汉字有大约两万一千个#xff0c;用来表示每个字#xff0c;向量太长#xff1b;…草稿大纲一、基础知识self-attention 自注意力机制怎么用数据表示文字编码为向量*插入解释 one-hot Encoding缺点汉字有大约两万一千个用来表示每个字向量太长体现不出关系常见的输出***3种本篇只包括了前两种问题同一字放在不同语境语义词义不同但输入一定模型一定输出一定。所以要考虑前后关系*插入课件图片传输太远缺点RNN循环神经网络“传家宝”-记忆单元-长短期记忆Long short-term memory LSTM但是RNN和LSTM太慢了只能串行也就是只能一个字一个字的看-Self-attention 自注意力机制如何计算注意力1、点乘 缺点固定2、qurry- 经过soft-max公式注意力和为一参数wq\wv\wk经过self-attention特征维度不变token768向量bert一个特征提取器。无监督学习Bert-Pre-TrainingMasked Language Model使用[mask]遮盖Next Sentence Prediction:??Bert预训练任务//////Bert结构//////embedding-bert layers-pooler池化输出Bert输入EmbeddingEa Eb..分辨是哪个句子Bert输出pooler4种总结一、字的表示768/1024..One-Hot二、为了知道上下文引入了RNN和LSTM三、上面的模型不能并行速度慢只能单向引入Self-attention四、Self-attention五、Bert六、Bert架构三部分