怎样做站长建网站,如何修改wordpress主页代码,网站怎么做来流量吗,闸北区网站制作“ RAG中召回策略有多种多样#xff0c;但同样构建上下文也有很多方法。” 之前在社群有过一次关于关键字和语义检索的讨论#xff0c;不过当时两个人好像不在一个频道上#xff0c;他说他的关键字召回#xff0c;我说我是语义召回#xff0c;然后讨论到了怎么chunk的问题…“RAG中召回策略有多种多样但同样构建上下文也有很多方法。”之前在社群有过一次关于关键字和语义检索的讨论不过当时两个人好像不在一个频道上他说他的关键字召回我说我是语义召回然后讨论到了怎么chunk的问题。在关键字召回中需要根据段落和语句进行分词如jieba分词库因此一般情况下会使用段落和句子的chunk方式但是在语义检索中分词会使用多种组合策略如标题段落句子长度等使用不同的检索方式需要用到不同的chunk策略才能达到最好的效果。然后这里对方又提了一个问题你是怎么构建上下文的当时看到这句话就觉得好莫名其妙肯定是用召回的数据做上下文啊但是仔细一想好像又不太对然后他又问你是怎么做chunk和文档的关联关系的看到这里发现事情好像远远没有自己想的那么简单。之后他又问了一句你会根据chunk的内容再次召回完整段落吗OK这时就发现问题出在哪了应该用什么构建上下文怎么构建上下文在RAG中构建上下文是很重要的一件事也是整个RAG流程中的最后一步一般情况下都会用问题历史记录系统提示词以及召回的文档一起构建上下文。但现在这个问题就出在召回的文档上应该召回哪些文档从语义召回的角度来说召回文档肯定是根据语义进行召回召到那些数据就用那些数据做上下文或者再进行一次rerank重排之后再做上下文。但是这里有个问题假如说你的一个文档有十个段落然后每个段落被拆分成三个chunk这时就有三十个chunk然后你根据语义召回时召回了其中的五个chunk然后这五个chunk分别位于其中的三个段落中。这时就出现了一个问题如果从语义相似度的角度出发应该使用这五个chunk做上下文因为它们语义相似度最高但是这里不知道大家有没有想过这样一个问题从正常的逻辑上来讲每个段落的内容相关度应该是最高的因此理论来说语义相似度召回的数据也应该是在一个或两个段落中但是现在的问题是语义最相关的出现在了其中的三个段落中也就是说相关性最高的段落中有一部分数据是语义无关的这里是不是就矛盾了说到这里可能很多人觉得很绕那我们就说的直白点理论上来说我们召回了五个chunk然后这五个chunk存在三个段落中这时理论上我们应该把这三个段落的完整内容拿来做上下文因为段落之间肯定是高度相关的内容。但事实上我们可能很多人只是用这五个chunk做上下文而不是考虑把这三个段落的内容全部拿出来做上下文。所以这时我们应该怎么选才合适其实这两者之间并不是非此即彼的关系理论上来说我们可以选择任何一种方式也可以采用两者混合的方式举例来说如果一个文档段落数据长短不一长的有几百上千字短的才几十上百字如果按照统一的段落构建上下文这时可能会出现大量的噪音数据并且会严重影响到模型的生成质量和加快token消耗。所以根据chunk召回完整段落内容可以根据不同的场景选择折中的方案而不是一棒子打死必须使用某种方式。并且有时为了减少token消耗提升模型的准确性我们可能还会对召回的数据做语义合并尽量减少上下文的长度。最后选择AI大模型就是选择未来最近两年大家都可以看到AI的发展有多快时代在瞬息万变我们又为何不给自己多一个选择多一个出路多一个可能呢与其在传统行业里停滞不前不如尝试一下新兴行业而AI大模型恰恰是这两年的大风口人才需求急为紧迫人工智能时代最缺的是什么就是能动手解决问题还会动脑创新的技术牛人智泊AI为了让学员毕业后快速成为抢手的AI人才直接把课程升级到了V6.0版本‌。这个课程就像搭积木一样既有机器学习、深度学习这些基本功教学又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能把AI技术从基础到前沿全部都包圆了课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌课程还教大家怎么和AI搭档一起工作就像程序员带着智能助手写代码、优化方案效率直接翻倍‌这么练出来的学员确实吃香83%的应届生都进了大厂搞研发平均工资比同行高出四成多‌。智泊AI还特别注重培养人无我有的能力比如需求分析、创新设计这些AI暂时替代不了的核心竞争力让学员在AI时代站稳脚跟‌。课程优势一人才库优秀学员参与真实商业项目实训课程优势二与大厂深入合作共建大模型课程课程优势三海外高校学历提升课程优势四热门岗位全覆盖匹配企业岗位需求如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益·应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。·零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。·业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。重磅消息人工智能V6.0升级两大班型AI大模型全栈班、AI大模型算法班为学生提供更多选择。由于文章篇幅有限在这里我就不一一向大家展示了学习AI大模型是一项系统工程需要时间和持续的努力。但随着技术的发展和在线资源的丰富零基础的小白也有很好的机会逐步学习和掌握。【最新最全版】AI大模型全套学习籽料可无偿送LLM面试题AI大模型学习路线大模型PDF书籍640套AI大模型报告等等从入门到进阶再到精通超全面存下吧获取方式有需要的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】来智泊AI高起点就业培养企业刚需人才扫码咨询 抢免费试学⬇⬇⬇AI大模型学习之路道阻且长但只要你坚持下去就一定会有收获。