廊坊开发区规划建设局网站深圳制作网站

张

张建站

2026/5/26 12:44:01

10分钟阅读

廊坊开发区规划建设局网站,深圳制作网站,wordpress的评论插件,asp.net网站本文深入浅出地讲解了嵌入模型在大模型应用中的关键作用。从嵌入模型的基本原理、与大语言模型的关系#xff0c;到稠密向量与稀疏向量的对比#xff0c;以及混合检索、Reranker等最佳实践#xff0c;全面覆盖了嵌入模型在RAG系统中的应用。文章还介绍了主流模型的选型策略、…本文深入浅出地讲解了嵌入模型在大模型应用中的关键作用。从嵌入模型的基本原理、与大语言模型的关系到稠密向量与稀疏向量的对比以及混合检索、Reranker等最佳实践全面覆盖了嵌入模型在RAG系统中的应用。文章还介绍了主流模型的选型策略、分块技巧、向量量化等实用建议并提供了实战代码示例。最后总结了五个核心建议帮助读者更好地理解和应用嵌入模型提升大模型的效果。一、嵌入模型是什么假设你在北京地图上标注各种餐馆——“烤鸭”“烤肉”串串会聚在一起“咖啡厅”甜品店会聚在另一片。嵌入模型做的事情类似把文字、图片甚至视频变成一组数字坐标向量放进一个高维空间。意思相近的内容坐标就靠得近。• “猫” 和 “喵星人” → 坐标非常近• “苹果水果” 和 “苹果手机” → 两个不同位置• “今天天气真好” 和 “明天会下雨吗” → 话题相关距离适中这些坐标通常是 256 到 4096 维的浮点数。维度越高表达能力越强但存储和检索成本也越高。核心用途•语义搜索找意思相近的内容不只是关键词匹配•RAG检索增强生成让大模型有自己的知识库•推荐系统相似内容推给相似用户• 文本分类、异常检测、聚类分析二、嵌入模型和大语言模型是什么关系它们都基于 Transformer 架构但分工不同对比项嵌入模型大语言模型核心功能把文本压缩成向量生成文本架构Encoder双向Decoder自回归输出一个固定长度向量一串 token参数量100M - 8B7B - 数千亿速度极快毫秒级较慢秒级简单说嵌入模型负责找到相关内容大语言模型负责用找到的内容回答问题。在 RAG 系统里嵌入模型是入口——它找不到的东西大模型根本看不见。三、稠密向量 vs 稀疏向量嵌入向量有两大流派特性稠密向量稀疏向量原理神经网络压缩语义词频统计/关键词权重代表OpenAI、BGE、CohereBM25、SPLADE优势理解语义、同义词精确匹配、专有名词劣势可能漏掉关键词不懂同义词和语境举个例子搜索“GPU 显存不足”• 稠密向量能找到 “CUDA out of memory” 的英文文档语义相近• 稀疏向量能精确匹配包含 “GPU” 这个词的文档常见误区BM25 不是落后技术。在涉及专有名词产品编号、人名、代码函数名的场景它经常比神经网络嵌入表现更好。Google 搜索至今仍然用稀疏检索作为第一层召回。四、混合检索 Reranker生产环境最佳实践既然两种向量各有所长最佳做法是合在一起用——混合检索Hybrid Search。第一步双路召回• 稠密向量做语义搜索得到 Top-K 候选• BM25 做关键词搜索得到另一批候选• 用 RRF倒数排名融合合并两组结果# RRF 核心公式 def rrf_score (rank, k 60 ): return 1.0 / (k rank) # 合并两路结果 final rrf (dense_rank) rrf (sparse_rank)第二步Reranker 精排召回 Top-50 之后用 Reranker 对每个结果和查询做精细打分重新排序取 Top-5 送给大模型。Reranker特点Cohere Rerank 3.5业界最强API 调用简单BGE-Reranker-v2开源中文表现优秀Jina Reranker v2免费额度代码场景好用完整链路用户查询 → 嵌入模型召回 Top-50→ Reranker精排 Top-5→ 大语言模型生成回答这三步是 2026 年 RAG 系统的标准架构。跳过任何一步效果都会打折。五、分块策略Chunking嵌入模型有上下文窗口限制通常 512 或 8192 token长文档必须先切分成块再嵌入。怎么切直接决定检索效果。策略做法适用场景固定长度每 500 token 切一刀快速实现通用按语义切分检测话题转换点长文章、报告按结构切分按标题/段落/代码块技术文档、Markdown递归切分先大后小逐级拆分LangChain 默认方式关键技巧重叠窗口Overlap切块时让相邻块有 10-20% 的重叠内容避免关键信息被切断。比如 500 token 一块重叠 50 token。六、主流模型选型2026 年初模型MTEB维度价格亮点Cohere embed-v465.21024$0.1/M综合第一OpenAI text-3-large64.63072$0.13/M生态最好OpenAI text-3-small62.31536$0.02/M性价比王BGE-M3开源63.01024免费中文最强Jina v363.01024有免费额度代码检索强Qwen3-Embedding新晋强4096免费中文可本地跑价格说明M 百万 token约等于 3-4 本书的长度。选型决策树• 数据不能出境 → BGE-M3 或 Qwen3-Embedding本地部署• 中文为主 → BGE-M3成熟稳定或 Qwen3-Embedding新锐• 英文为主、已在用 OpenAI → text-3-small性价比或 text-3-large效果优先• 多语言混合 → Cohere embed-v4• 快速验证、不想花钱 → Jina v3 免费额度七、MTEB嵌入模型的高考MTEBMassive Text Embedding Benchmark是最权威的嵌入模型评测基准由 HuggingFace 维护涵盖 8 大任务类型、56 个数据集•检索Retrieval— RAG 最相关建议重点看• 语义相似度STS• 分类Classification• 聚类Clustering• 重排序Reranking别只看总分MTEB 总分是所有子任务的均分。如果你做 RAG就只看 Retrieval 子项。总榜第一不一定适合你的场景。榜单地址huggingface.co/spaces/mteb/leaderboard八、向量量化省 90% 存储成本1024 维的 float32 向量每条占 4KB。一千万条文档就是 40GB。怎么省向量量化用更少的字节表示同一个向量牺牲少量精度换存储和速度。方法压缩比精度损失int8 量化4x极小 1%二值量化Binary32x较大需 Reranker 补偿Matryoshka套娃可调按需取前 N 维Matryoshka 嵌入OpenAI text-3 支持特别巧妙向量的前 256 维就包含了大部分语义前 512 维覆盖 95%。可以根据精度需求动态截断不用重新生成。实用建议先用 int8 量化几乎零损失如果还不够用二值量化做粗筛 Reranker 精排。Qdrant、Weaviate 都原生支持量化。九、多语言与跨模态嵌入多语言嵌入一个模型同时理解多种语言搜中文能召回英文文档。• BGE-M3100 语言中文检索最强• Cohere embed-v4MTEB 多语言子项第一• mE5-large微软多语言 STS 优秀开源跨模态嵌入把图片和文字放进同一个向量空间。• CLIPOpenAI图文互搜的开创者• ImageBindMeta连音频、视频、深度图都统一• nomic-embed-vision轻量级图文混合检索应用场景电商搜索输入红色连衣裙→ 跨模态嵌入同时检索文字描述和商品图片。内部知识库中英混合文档用一个多语言模型统一处理不用维护两套索引。十、实战代码OpenAI Embeddingfrom openai import OpenAI client OpenAI() resp client.embeddings.create( model text-embedding-3-small , input 嵌入模型把文字变成向量 ) vector resp.data[0].embedding # len(vector) 1536Jina Embedding免费额度import requests resp requests.post( https://api.jina.ai/v1/embeddings , headers{ Authorization : Bearer jina_xxx }, json{ model : jina-embeddings-v3 , input : [ 嵌入模型把文字变成向量 ] } ) vector resp.json()[ data ][0][ embedding ]BGE-M3 本地推理from FlagEmbedding import BGEM3FlagModel model BGEM3FlagModel( BAAI/bge-m3 ) docs [ 嵌入模型把文字变成向量 , Embedding models convert text ] embeddings model.encode(docs) # 返回稠密稀疏向量一个模型搞定混合检索总结五条核心建议1. 嵌入模型决定 RAG 上限大模型只能用找到的内容回答。嵌入模型找不到的大模型永远看不见。2. 默认开混合检索稠密稀疏没有理由不用。主流向量数据库都原生支持。3. 不要跳过 Reranker召回 50 条让 Reranker 精排比直接用嵌入分数取 Top-5 准确得多。4. 分块策略比模型选择更重要同一个模型分块方式不同检索效果可以差 2-3 倍。先调分块再考虑换模型。5. 先跑起来再优化OpenAI text-3-small 或 Jina v3 免费额度先跑通流程再根据实际效果决定是否换模型。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取