网站开发哪里好,网站宣传的方式,有保障的无锡网站制作,用wordpress做论坛好吗写在前面春节这段时间工作、生活忙得团团转#xff0c;好不容易现在有些时间#xff0c;就捣鼓了一个 RAG 相关的小项目。 项目虽然不大#xff0c;但做完之后#xff0c;我对 RAG 的理解一下子通透了很多。 所以想写几篇文章#xff0c;用大白话把 RAG 讲清楚。 如果你对…写在前面春节这段时间工作、生活忙得团团转好不容易现在有些时间就捣鼓了一个 RAG 相关的小项目。项目虽然不大但做完之后我对 RAG 的理解一下子通透了很多。所以想写几篇文章用大白话把 RAG 讲清楚。如果你对这个词有点好奇或者想深入了解希望这个系列能给你一些启发。 本篇是系列的上篇主要讲 RAG 是什么、为什么需要它以及离线数据处理的核心步骤。下篇会聊在线检索匹配的部分。01 先泼盆冷水大模型不是万能的在聊 RAG 之前我们得先认清一个现实大模型比如 ChatGPT、文心一言、豆包并不是什么都懂的神仙。它有三个明显的短板问题类型举个例子不知道私有信息你们公司的内部制度、产品规格它压根没见过怎么可能答得准会一本正经地胡说八道专业术语叫「幻觉」——它编了个答案说得头头是道但其实是错的垂直领域不够专业问它医学、法律、金融的深度问题回答可能只是及格线水平那怎么办呢很简单给它开小灶喂它吃课外资料。这个喂资料 让它参考着回答的技术方案就叫 RAG。02 RAG 到底是个啥RAG全称 Retrieval-Augmented Generation翻译过来就是「检索增强生成」。听着很高大上别怕一句话解释让大模型先查资料再回答问题。整个流程分为两个阶段阶段做什么比喻离线数据处理提前把资料整理好存进知识库就像提前把常见问题整理成一本《答案手册》在线检索匹配用户提问时先去知识库里找相关内容再让大模型生成回答用户问问题时你先翻手册找答案再润色一下告诉他本篇重点讲离线数据处理也就是怎么把你的资料变成大模型能用的知识库。03 用一个故事讲清楚从客服的烦恼说起为了让大家更好理解我们来代入一个场景。 场景设定你是一名客服假设你是公司的客服每天要回答各种客户的问题。问着问着你发现很多问题都是重复的“你们产品怎么退货”“保修期多久”“怎么开发票”于是你做了一件聪明事 把常见问题和标准答案整理成一个 Excel 表格。以后再有人问同样的问题直接从表里复制答案省时省力。 但是问题来了时间一长你越来越烦每天在 Excel 里翻来翻去找答案眼睛都花了客户的问法五花八门表里明明有答案就是搜不到表格越来越大找一个答案要翻半天你心想能不能有个 AI 帮我自动查表、自动回复啊 RAG 出现了这时候RAG 进入了你的视线你的内心燃起了希望。你决定用 RAG 来改造你的工作流程。那具体怎么做呢往下看04 离线数据处理把资料变成知识库第一步收集原材料首先你把手头的资料都整理出来自己积累的《常见问题 标准答案》Excel公司产品的使用说明文档PDF、Word一些产品图片、宣传册这些就是你要喂给 RAG 的原材料。第二步文档解析——让机器读懂你的资料不同格式的文件机器处理的方式不一样文件类型处理方式图片用 OCR光学字符识别把图片里的文字提取出来PDF / Word / 网页转换成 Markdown 或纯文本格式方便后续处理 为什么要转成 Markdown 因为 Markdown 格式结构清晰大模型读起来更容易理解层级关系。第三步文档清洗——把脏东西去掉解析完之后文档里往往会有一些杂质需要清理掉❌ 多余的空格、换行❌ OCR 识别错误的字比如把目认成日❌ 乱码、特殊符号❌ 跟业务无关的内容比如页眉页脚清洗的目的让数据干净、规整减少后续检索时的干扰。第四步文档分块——最关键的一步 划重点分块的好坏直接决定后续检索效果的好坏。为什么要分块两个原因原因一让检索更精准如果把一整篇文档直接丢进知识库用户提问时大模型要从几千字里大海捞针很容易找不到重点。切成小块后能更精准地命中答案所在的那一段。原因二避免大模型记不住大模型有个上下文窗口限制一次能处理的文字量是有上限的。塞太多内容进去它会前面看完后面忘了回答质量反而变差。切成小块输入就不容易超出它的处理能力。分块有什么技巧原则解释举例语义要完整一块内容最好是一个完整的主题别把一句话切成两半✅ 把退货政策整段放一块 ❌ 把退货需要在7天内……切到两块里适当留重叠块与块之间留一点重复内容帮模型理解上下文关系比如上一块结尾的2-3句话在下一块开头也保留特殊内容单独处理代码、表格、公式这类有特定结构的内容最好整块保留✅ 一段完整的代码放一起 ❌ 把函数定义和函数体切开分块没有标准答案⚠️ 重要提醒分块没有放之四海而皆准的公式。不同的业务场景、不同的文档类型最佳的分块策略都不一样。这是一个需要反复调试、不断优化的过程。多试几种分块方式看看哪种检索效果最好才是正道。05 小结本篇讲了什么来回顾一下大模型不是万能的——它不知道你的私有信息还可能胡说八道RAG 是什么——让大模型先查资料再回答分为离线处理和在线检索两个阶段离线数据处理的核心步骤收集原材料文档解析OCR / 转 Markdown文档清洗去杂质文档分块最关键决定检索效果普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】