二级网站建设费用wordpress电影分享
二级网站建设费用,wordpress电影分享,wordpress learnpress,网页界面设计历史本文介绍了检索增强生成#xff08;RAG#xff09;技术#xff0c;旨在帮助初学者理解如何结合信息检索与文本生成#xff0c;解决大语言模型#xff08;LLM#xff09;的“知识过时”和“幻觉输出”问题。文章首先阐述了RAG的必要性#xff0c;对比了提示工程和模型微调…本文介绍了检索增强生成RAG技术旨在帮助初学者理解如何结合信息检索与文本生成解决大语言模型LLM的“知识过时”和“幻觉输出”问题。文章首先阐述了RAG的必要性对比了提示工程和模型微调的局限性并详细解析了RAG的三步曲架构索引构建、检索和生成。随后文章深入探讨了实际工程中决定成败的关键细节包括数据治理物理层、语义层、认知层、切分策略递归分块、滑动窗口、基于模型的语义切分、高级检索技术混合检索、重排序以及前沿方向GraphRAG。最后文章展望了RAG作为AI Agent工具的应用前景并强调了科学评测的重要性。通过本文读者可以全面了解RAG技术并掌握从入门到精通的关键步骤。第一部分起跑线 —— 五分钟读懂 RAG检索增强生成RAG作为一种结合信息检索与文本生成的技术已成为解决大语言模型LLM知识过时和幻觉输出问题的关键方案。简单来说RAG 通过将外部知识库与 LLM 生成能力相结合使模型能够基于真实、最新的信息输出答案。1. 为什么我们需要 RAG在 RAG 出现之前大模型的应用开发主要依赖提示工程和模型微调但二者都有明显局限提示工程适合简单指令但无法补充模型未训练过的新知识如企业内部文档且受限于上下文窗口长度。模型微调能注入新领域知识但成本高需大量标注数据算力、更新慢改一次就要重新训一次且容易遗忘原有能力。RAG 的核心价值就是做大模型的“外置知识库”——无需微调只需通过实时检索外部文档就能让模型生成更精准、更实时、更合规的答案。如果把大模型比作一个超级学霸但他记性不好且知识停留在两年前那么 RAG 就是给他发了一本随时可查的“参考书”让他能够进行“开卷考试”。2. RAG 架构的三步曲ℹ️RAG 核心架构RAG 系统的核心流程可概括为先检索、后生成主要分为三个关键环节索引构建、检索和生成。索引构建 (Indexing)把文档切碎Chunking变成向量Embedding存进向量数据库。检索 (Retrieval)当用户提问时系统在数据库中找到最相关的片段。生成 (Generation)将用户的问题 找到的片段一起喂给大模型生成最终答案。写在起跑线之后听起来很简单确实写个 Python 脚本调用一下 LangChain你可能只需要 5 分钟就能跑通上述流程。但是当你把它上线到生产环境你会发现效果一塌糊涂搜不到、答不准、甚至答非所问。这时候你才刚刚跑出起跑线离真正的终点还差十公里。第二部分那十公里 —— 决定成败的关键细节真正的 RAG 护城河不在于你用了哪个最先进的大模型而在于你如何处理那些隐藏在冰山之下的脏活、累活。下面我们将深入这“最后十公里”看看在实际工程中我们会遇到哪些具体的痛点以及如何优雅地解决它们。第一公里数据的“肮脏”现实 (Data Governance)在 Demo 阶段我们通常使用干净的.txt或.md文件进行测试效果往往出奇的好。但在现实的企业级应用中数据往往是脏乱差的。为了让 RAG 吃得健康我们需要建立一套分层的数据治理体系。第 1 层物理层 —— 攻克格式壁垒 (Physical Layer)这是数据“进门”的第一步。RAG 面临的最大敌人往往是PDF和图片。痛点PDF 是为打印而生的。如果你简单提取文本表格会乱序“姓名 | 年龄” 变成 “姓名年龄”多模态信息会丢失流程图、架构图被直接忽略。对策建立重型的ETL 流水线。引入 OCR 或多模态大模型如 Gemini 1.5 Pro, GPT-4o来“看”文档将 PDF 页面直接转换为 Markdown保留标题层级和表格结构并清洗掉页眉、页脚等噪音。 在业界Unstructured.io是处理此类问题的标杆工具它能将复杂的多栏 PDF 精准转换为 JSON而 LlamaIndex 推出的LlamaParse则专门针对财务报表优化能有效防止模型因表格数据乱序而产生幻觉。第 2 层语义层 —— 清洗与归一化 (Semantic Layer)即便文字提取出来了如果不进行语义层面的治理RAG 依然会变成“人工智障”。文本归一化 (Normalization)解决“同义不同词”的痛点。场景文档 A 写的是“LLM”文档 B 写的是“大语言模型”。如果不统一用户搜“大模型”可能就漏掉了文档 A。对策在入库前建立术语表将所有变体统一替换为标准术语。去重与纠错场景企业里充斥着《V1 版》、《V2 修订版》、《V2 最终版》。如果不去重重复文档会挤占宝贵的 Top-K 检索窗口。对策利用 Hash 算法去重并引入拼写检查模型修复 OCR 带来的错别字。第 3 层认知层 —— 增强与维护 (Cognitive Layer)⚠️ 注意这一层并非通用标准而是针对特定业务场景如新闻、政策、高频更新数据的进阶优化。如果你的数据是静态的如历史典籍前两层足矣但如果你的数据是动态的这一层至关重要。时效性管理 (Time Sensitivity)痛点用户问“最新政策”RAG 却自信地甩出了一份 2018 年的废止文件。对策必须提取文档的生效时间作为元数据 (Metadata)。在检索时通过时间衰减函数对旧文档降权或者直接过滤掉失效文档。反馈闭环 (Feedback Loop)痛点错误的文档一直留在库里坑人。对策建立“点踩”机制。利用用户的反馈数据来标记脏数据定期从库中清除或修正这些“有毒”知识。 以BloombergGPT (彭博社)为例他们在构建金融大模型时建立了严格的时间戳标记Time-stamping系统确保模型不会混淆 2008 年金融危机的数据和现在的行情这已成为高时效性 RAG 数据治理的教科书级范例。第三公里切分的艺术 (Chunking Strategy)把文档切成块Chunk是 RAG 的基本功但很多开发者低估了切分策略对检索效果的毁灭性影响。1. 语义断裂的悲剧假设你采用最简单的“按 500 字符切分”策略一句话可能会被生硬地切成两半Chunk A“根据公司最新的规定所有员工的年终奖发放标准是——” (结尾)Chunk B“——基于当年的 KPI 绩效考核且系数调整为 1.2。” (开头)后果当用户问“年终奖发放标准是什么”时Chunk A 因为只有主语没有宾语相关性低Chunk B 因为只有宾语没有主语相关性也低。两个关键片段都可能因为语义不完整而落选 Top K导致模型回答“未找到相关信息”。2. 为什么现在的模型还需要切分你可能会问“现在的模型都能读 100 万字了为什么还要切分”这涉及到一个信噪比的问题。如果你为了回答“某员工的工号是多少”而把整本《员工手册》都塞给模型干扰模型可能会被手册中其他相似名字员工的信息干扰Lost in the Middle 现象。成本与延迟处理 10 万 Token 的延迟和费用是处理 500 Token 的几百倍。切分是为了让模型聚焦于最关键的证据而非让它在大海捞针。 怎么切才科学递归分块 (Recursive Splitting)这是目前最推荐的通用策略。它像剥洋葱一样优先尝试用“段落换行符”切分如果段落太长再尝试用“句子句号”切分。这样最大程度保留了段落的完整语义。这也正是LangChain框架中默认推荐的RecursiveCharacterTextSplitter策略是目前大多数企业级 RAG 应用在生产环境中的首选。滑动窗口 (Sliding Window)在每个 Chunk 的首尾保留 10%-20% 的重叠内容Overlap。比如 Chunk A 的结尾 100 字会重复出现在 Chunk B 的开头。这就像接力赛的交接棒区确保没有任何一句话会被切断保证了语义的连续性。基于模型的语义切分 (Semantic Chunking)这是进阶玩法。利用 BERT 等小模型计算前后句子的语义相似度。如果相邻两句的相似度骤降比如从讲“产品功能”突然跳到“售后服务”就在这里切一刀。这种方式能保证每个 Chunk 内部讨论的话题高度统一检索准确率往往最高。例如IBM watsonx.ai平台就明确支持这种技术用于处理复杂的法律合同和技术手册有效防止了“断章取义”。第五公里检索不只是“找相似” (Advanced Retrieval)很多初学者以为 RAG 就是“向量搜索 (Vector Search)”其实向量搜索有一个致命的弱点它懂语义但不懂精确匹配。1. 向量搜索的“盲区”向量搜索计算的是语义相似度。场景用户搜“Q3 财报”。向量库的反应它可能会觉得“Q3”这个词太短语义不明显于是找来了一堆“财务报告”、“年度总结”、“第三季度展望”等语义接近的文档。问题用户其实非常明确就要包含“Q3”这个关键词的文档而不是其他季度的。向量模型可能会因为“过度联想”而忽略了精确的字面匹配。2. 召回与精排的漏斗单纯依赖 Top K 检索往往存在“不仅漏得快而且不准”的问题。我们需要一个漏斗机制。 进阶方案混合检索 (Hybrid Search)这是现代 RAG 的标配。 一路用Vector Search抓语义一路用BM25 / Keyword Search抓关键词最后通过加权算法RRF合并结果。这样既能懂“苹果”和“水果”是相关的也能精准定位到“iPhone 15 Pro”这个具体型号。目前Elasticsearch和MongoDB Atlas等主流数据库都在最新版本中原生集成了这种混合检索功能方便企业直接复用基础设施。重排序 (Rerank) —— 必不可少的修正 这是提升准确率最立竿见影的手段。先用成本较低的混合检索海选出 50 条大概相关的文档再引入一个专门的Rerank 模型Cross-Encoder像阅卷老师一样逐一精细打分把真正匹配的提拔到前面。在实际生产中Cohere Rerank是这一领域的标杆方案许多企业如 Notion、Oracle并没有从头训练模型而是直接接入 Cohere 的 API 来“清洗”检索结果用极低的成本换取了检索精度的显著提升。第六公里未来的探索 —— GraphRAG 的结构化视野这一公里目前并不是所有 RAG 系统的“必选项”而是业界为了解决传统 RAG 瓶颈正在积极探索的一个前沿方向。当你的应用场景对“复杂推理”和“全局理解”有极高要求时这是一个非常值得关注的思路。它是 RAG 技术从“概率性匹配”向“结构化推理”的一次重要跃迁。1. 向量检索的“语义孤岛”困境传统的 RAG 架构主要依赖于向量嵌入Vector Embeddings技术。这种方法在处理“显性事实检索”任务如“公司的年收入是多少”时表现出色但在面对需要全局理解或跨文档推理的复杂问题时往往显得力不从心。缺失的逻辑链条向量数据库本质上存储的是非结构化的数据片段。尽管嵌入向量捕捉了语义信息但它无法显式地保留实体之间的逻辑关系、因果链条或层级结构。Connecting the Dots连接点滴的难题当用户提出的问题需要串联多个线索时——例如“分析过去三年来地缘政治变化对该供应链网络的累积影响”——向量 RAG 往往只能检索到包含相关关键词的零散片段而无法构建出贯穿多个文档的完整叙事逻辑。这种现象被称为**“语义孤岛”**效应信息虽然被检索到了但其背后的结构化语境丢失了。全局性查询Global Queries的挑战面对“该数据集的主要主题是什么”这样的宏观问题向量检索很难确定哪些具体的文本块能代表整体往往导致检索结果的片面性或对大量 Token 的无效消耗。2. GraphRAG 的核心理念结构化认知的引入GraphRAGGraph-based Retrieval-Augmented Generation的核心理念在于利用大语言模型的能力在检索之前先对语料库进行深度的“理解”和“重组”。它不满足于仅仅存储原始文本片段而是通过提取文本中的实体Entities、关系Relationships和关键声明Claims构建出一个高密度的知识图谱Knowledge Graph, KG。这种结构化认知的引入使得系统具备了以下传统 RAG 无法比拟的能力全景式理解Holistic Understanding 通过对图谱进行社区检测Community Detection系统能够自底向上地生成各个层级的摘要。这使得 GraphRAG 能够像人类专家一样先把握宏观图景再深入微观细节从而具备回答“这份文档讲了什么故事”这类全局性问题的能力。多跳推理Multi-hop Reasoning 知识图谱的拓扑结构允许系统沿着关系路径进行遍历例如实体 A 影响 实体 B实体 B 导致了 事件 C因此 A 是 C 的潜在诱因。这能发现那些在文本上距离较远、甚至分布在不同文档中但逻辑上紧密相连的隐含信息。可解释性与溯源Explainability Provenance 生成的每一个答案都可以追溯到具体的实体节点、关系描述以及支撑这些关系的原始文本单元极大地增强了结果的可信度避免了黑盒模型“一本正经胡说八道”的风险。目前微软研究院开源的GraphRAG是这一方向的标杆项目。在处理数百万字的复杂文档如私有财报、法律卷宗时它展示了比传统 Baseline RAG 更强大的归纳和推理能力特别是能够回答“这些文件共同揭示了什么隐患”这类高级问题。如果对 GraphRAG 有兴趣进一步了解的这里我推荐一篇深入浅出的文章来进一步阅读了解《超越传统 RAGGraphRAG 全流程解析与实战指南》第七公里RAG 的进阶应用 —— 成为 Agent 的工具这其实已经不完全属于 RAG 架构本身的范畴而是 RAG 的一种高级使用方式。在更复杂的场景中RAG 不再是一个独立的问答系统而是被集成到AI Agent (智能体)中作为一个“知识获取工具”。传统的 RAG 流程是死板的用户提问 - 检索 - 回答。如果你问一个需要多步推理的问题比如“比较 A 公司和 B 公司 2023 年的营收增长率”传统 RAG 可能会一次性搜出一堆乱七八糟的财报片段然后试图强行总结结果往往是混乱的。 Agentic RAG 的工作流像 UltraRAG 这样的项目本质上就是将 RAG 封装为一个可以被调用的工具Tool。主动规划 (Planning)Agent 接收到问题后会先思考“要回答这个问题我需要先查 A 公司的财报再查 B 公司的财报最后做计算。”按需调用 (Tool Use)Step 1: Agent 调用 RAG 工具搜索“A 公司 2023 营收”。Step 2: Agent 再次调用 RAG 工具搜索“B 公司 2023 营收”。Step 3: Agent 拿到两份确凿的数据后自己进行计算和对比。自我反思 (Self-Correction)如果第一次检索结果为空Agent 不会直接回复“不知道”而是会像人一样反思“可能是关键词不对”然后尝试换个关键词再次搜索。这种结合让 RAG 从“死板的流程”变成了“灵活的技能”。在 C 端Perplexity.ai就是这种模式的典型代表它会主动显示检索源甚至修正查询词而在开发侧LangGraph则是目前构建此类“多跳问答Multi-hop QA”系统的核心框架广泛应用于金融研报分析等复杂场景。第九公里拒绝“盲人摸象” —— 科学评测 (Evaluation)一切没有评测的优化都是“玄学”。在 RAG 上线前的最后一公里你必须建立一套自动化的评测体系否则你永远不知道改了一个 Prompt 是变好了还是变坏了。1. 评什么 (The Metrics)业界通用的 RAG 评测维度主要包括 RAG Triad三元组Context Relevance (上下文相关性)检索出来的片段真的和问题有关吗Groundness / Faithfulness (忠实度)AI 的回答是基于检索到的片段生成的还是它自己瞎编的Answer Relevance (答案相关性)AI 的回答真的解决用户的问题了吗2. 怎么评 (The Tools)靠人工看 Log 是不可能的。你需要使用“LLM-as-a-Judge”模式即用一个更强的模型如 GPT-4来给你的 RAG 系统打分。在这一领域Ragas是目前最流行的开源框架它能通过自动生成测试集来计算各项指标分数而TruLens则提供了可视化的“反馈三元组”仪表盘帮助开发者快速定位到底是检索Retrieval出了问题还是生成Generation出了问题。第三部分最后一公里 —— 认知的升级当我们解决了数据清洗、分块策略、混合检索、图谱增强、Agent 集成以及科学评测后我们终于来到了最后一公里。这不仅是技术的完善更是对 RAG角色定位的重新认知。RAG 的角色演变从“插件”到“海马体”在 RAG 刚出现时我们把它看作一个“增强包” (Plugin)只有在用户提问需要查资料时才触发就像考试时偶尔翻一下书。但现在随着 AI Agent 的兴起RAG 正在成为 AI 系统的“基础设施”或者更准确地说它变成了 AI 的“海马体” (长期记忆)。以前的视角我是一个聊天机器人我外挂了一个知识库。现在的视角我是一个智能体我有完整的记忆系统。场景的质变现在的高级应用中RAG 不再仅仅用来回答“公司规章制度是什么”这种静态问题。当 AI 写代码时它通过 RAG 自动“回忆”起项目之前的代码风格和你昨天的需求变更当 AI 做计划时它自动“参考”团队历史项目的复盘教训。它不再是一个需要你显式调用的功能而是变成了 AI 思考过程中的本能反应是 AI 系统中不可或缺的文件系统 (File System)。结语五分钟读懂 RAG 并不难难的是如何不再把它当做一个简单的“搜索工具”而是把它构建成 AI 系统中可靠的“长期记忆体”。当你不再满足于“系统跑通了”而是愿意从数据清洗的脏活干起为 1% 的检索准确率去反复打磨切分策略、引入知识图谱、构建自动化评测时你就真正填平了这最后的十公里把 RAG 从一个技术玩具变成了企业的核心生产力。面试锦囊 —— 如何体现你对 RAG 的深度理解当面试官问你“谈谈你对 RAG 的理解”时不要只背诵“检索增强生成”这个定义。你可以尝试从以下三个维度来回答展示你的实战经验和技术视野。1. 宏观定位从“外挂”到“记忆”“我认为 RAG 不仅仅是大模型的外挂知识库它本质上是 AI 系统的长时记忆体 (Long-term Memory)。它解决了 LLM 训练后知识固化的问题让我们能以极低的成本将私有数据注入到生成过程中解决了幻觉和时效性痛点。”2. 工程落地魔鬼在细节“很多 Demo 跑通了就结束了但我的经验是RAG 的护城河在于‘最后十公里’的数据治理和检索优化。比如在数据侧PDF 的表格还原和语义切分Chunking质量直接决定了检索上限在检索侧单纯的向量检索往往不够用必须引入混合检索 (Hybrid Search)和重排序 (Rerank)机制才能在高召回的基础上保证高准确率。”3. 前沿趋势Agent 与 Graph“此外我也关注到 RAG 正在向Agentic RAG演进。它不再是死板的流水线而是 Agent 手中的工具可以通过自我反思Self-correction来优化检索结果。同时GraphRAG知识图谱的出现也很好地解决了传统 RAG 难以处理全局性推理的问题。”“我觉得可以从三个维度来看 RAG。首先从架构定位上看我认为 RAG 是大模型的长时记忆体Long-term Memory。它解决了模型训练后知识固化的问题让我们能以极低的成本将私有数据注入到生成过程中本质上是把 LLM 的‘内存’变成了‘外存’解决了幻觉和时效性问题。其次在工程落地上我认为 RAG 的门槛不在于跑通流程而在于**‘最后十公里’的精度打磨**。 在实际项目中我发现单纯的向量检索Vector Search往往不够用因为向量懂语义但不懂精确匹配比如工号、专有名词。所以我会采用混合检索策略结合 BM25 关键词检索并且在召回后必须引入Rerank重排序机制这能显著提升 Top-K 的准确率。 另外数据治理是被很多人忽视的一环。PDF 的表格还原、文档的语义切分Chunking这些脏活的处理质量直接决定了检索的上限。最后从发展趋势看我关注到 RAG 正在向Agentic RAG演变。 传统的 RAG 是死板的流水线而现在的 RAG 更像是一个 Agent 的工具Tool。Agent 可以通过自我反思Self-correction来判断一次检索够不够不够就换个词再搜或者通过GraphRAG知识图谱来解决跨文档的全局性推理问题。所以总结来说RAG 始于检索成于数据细节终于智能体架构。”如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取