嘉兴快速建站合作深圳福田商城网站建设

张

张建站

2026/4/11 12:16:48

10分钟阅读

嘉兴快速建站合作,深圳福田商城网站建设,手机网站 seo,光谷网站建设哪家好1. 为什么我们需要混合检索RAG#xff1f; 如果你最近在玩大语言模型#xff0c;肯定遇到过这种情况#xff1a;你问它一个最新的新闻事件#xff0c;或者一个非常小众、具体的知识点#xff0c;它要么开始“一本正经地胡说八道”#xff0c;要么直接告诉你“我的知识截止…1. 为什么我们需要混合检索RAG如果你最近在玩大语言模型肯定遇到过这种情况你问它一个最新的新闻事件或者一个非常小众、具体的知识点它要么开始“一本正经地胡说八道”要么直接告诉你“我的知识截止到XXXX年”。这种感觉就像你有一个无所不知的学霸朋友但他只记得课本上的旧知识对窗外正在发生的新鲜事一无所知。这就是传统大语言模型最大的痛点知识是静态的、有截止日期的。模型训练完成后它的“知识库”就冻结了。而现实世界的信息是每分每秒都在更新的。RAG检索增强生成就是为了解决这个问题而生的。简单说RAG就是给这个“学霸朋友”配了一个超级强大的“实时搜索引擎”和“个人图书馆”。当它回答不了你的问题时它会立刻去“图书馆”本地向量数据库和“互联网”网络搜索引擎里查资料然后把查到的信息和你提的问题一起思考最后给你一个靠谱的答案。我刚开始接触RAG时觉得这个概念很酷但很多教程要么讲得太理论要么代码东拼西凑跑起来一堆坑。所以我决定自己动手用LangChain这个“AI应用乐高积木”从零搭建一个真正能跑起来、能解决实际问题的混合检索RAG系统。这个系统最大的特点是**“混合”**它不仅能从你本地的文档比如公司知识库、个人笔记里找答案还能实时联网搜索把最新的信息整合进来。下面我就把我踩过的坑、调通的代码和实战经验毫无保留地分享给你。2. 动手之前环境与工具准备2.1 核心工具选型为什么是它们在开始敲代码之前我们先得把“工具箱”准备好。选对工具项目就成功了一半。我选择的这套组合是经过多个项目验证在易用性、性能和功能上比较平衡的方案。LangChain我们的“总装车间”。它不是一个具体的模型而是一个框架。你可以把它想象成一个乐高积木的底板上面有各种标准接口。它帮我们把大语言模型、向量数据库、检索器、提示词模板这些原本独立的模块像拼乐高一样轻松地连接在一起。没有它我们得自己写一大堆胶水代码来处理不同模块之间的通信和数据格式转换非常麻烦。Chroma轻量级本地向量数据库。向量数据库是RAG的“记忆核心”。它专门用来存储和快速检索文本转换成的“向量”一种数学表示。我选择Chroma是因为它足够轻量开箱即用不需要像Milvus或Pinecone那样搭建复杂的服务特别适合我们这种个人项目或快速原型开发。它直接以Python库的形式存在几行代码就能启动。Sentence Transformers文本“翻译”成向量的模型。我们需要一个嵌入模型Embedding Model把一段文字比如“夏天的旅游胜地”转换成一串有意义的数字向量。我选用sentence-transformers这个库它里面预置了很多高质量的开源模型比如all-MiniLM-L6-v2这个模型在速度和效果上取得了很好的平衡能把语义相似的句子映射到空间中相近的位置。大语言模型LLM系统的“大脑”。这是最终生成答案的模块。为了灵活性和成本考虑我强烈建议使用兼容OpenAI API格式的本地或云端模型。这意味着你可以用ChatGPTGPT-3.5/4的API也可以用任何部署了类似API接口的开源模型比如DeepSeek、Qwen、Llama等。我的项目里连接的就是我自己在GPU服务器上部署的一个模型。这种方式让你不被某一个厂商绑定随时可以切换“大脑”。2.2 一步步安装与配置理论说再多不如动手。打开你的终端或命令行我们一步步来。首先创建一个干净的Python虚拟环境是个好习惯能避免包版本冲突。# 创建并激活虚拟环境以conda为例你也可以用venv conda create -n hybrid_rag python3.10 conda activate hybrid_rag接下来安装核心依赖。我建议你创建一个requirements.txt文件把下面这些内容放进去然后运行pip install -r requirements.txt。# requirements.txt langchain0.1.0 langchain-community0.0.10 # 社区贡献的组件 chromadb0.4.22 # 向量数据库 sentence-transformers2.2.2 # 嵌入模型 openai1.12.0 # 用于调用兼容OpenAI API的LLM requests2.31.0 # 用于网络搜索 pydantic2.5.0 # 数据验证LangChain依赖 python-dotenv1.0.0 # 管理环境变量安装完成后我们来验证一下关键组件。新建一个Python文件test_env.py写几行简单的测试代码# test_env.py from sentence_transformers import SentenceTransformer import chromadb # 测试嵌入模型是否能加载 print(正在加载嵌入模型...) model SentenceTransformer(all-MiniLM-L6-v2) test_embedding model.encode(Hello, RAG!) print(f嵌入向量维度: {len(test_embedding)}) # 应该输出 384 # 测试Chroma客户端 print(\n测试Chroma连接...) client chromadb.EphemeralClient() # 使用临时内存客户端 collection client.create_collection(nametest) collection.add( documents[This is a test document.], metadatas[{source: test}], ids[id1] ) results collection.query(query_texts[test], n_results1) print(f查询结果: {results}) print(环境测试通过)运行这个脚本如果没有报错并且能看到向量维度和查询结果恭喜你基础环境就搭好了。这里有个小坑我踩过sentence-transformers第一次运行时会自动下载模型如果网络不好可能会失败你可以考虑先手动下载好模型文件。3. 构建系统的“记忆库”本地知识向量化现在我们来打造RAG系统的第一个能力从你自己的文档里找答案。这就像给你的AI助手建一个私人图书馆。3.1 准备你的知识原料文档加载与切分你的知识可以是任何文本文件PDF报告、Markdown笔记、Word文档甚至是爬取的网页内容。LangChain提供了丰富的文档加载器Document Loaders。我这里以最常见的Markdown和TXT文件为例。首先把你的文档放到一个文件夹里比如./data/。然后我们写一个加载函数# data_loader.py import os from langchain_community.document_loaders import TextLoader, UnstructuredMarkdownLoader from langchain.text_splitter import RecursiveCharacterTextSplitter def load_and_split_documents(data_dir./data): 加载指定目录下的所有文本和Markdown文件并进行智能切分 all_docs [] for filename in os.listdir(data_dir): file_path os.path.join(data_dir, filename) if filename.endswith(.txt): loader TextLoader(file_path, encodingutf-8) elif filename.endswith(.md): loader UnstructuredMarkdownLoader(file_path) else: continue # 跳过不支持的文件类型 documents loader.load() all_docs.extend(documents) print(f共加载了 {len(all_docs)} 个原始文档) # 关键步骤文本切分 # 为什么需要切分直接把整本书扔给模型检索效率低且上下文会太长。 text_splitter RecursiveCharacterTextSplitter( chunk_size500, # 每个文本块的最大字符数 chunk_overlap50, # 块之间的重叠字符避免语义被切断 separators[\n\n, \n, 。, , , , , , ] # 按优先级分割 ) split_docs text_splitter.split_documents(all_docs) print(f切分后得到 {len(split_docs)} 个文本块) # 看看切分效果 for i, doc in enumerate(split_docs[:2]): # 打印前两个块 print(f\n--- 文本块 {i1} (长度: {len(doc.page_content)}) ---) print(doc.page_content[:100] ...) print(f元数据: {doc.metadata}) return split_docs这里有个非常重要的经验chunk_size块大小的设置是门艺术不是科学。设得太小比如100可能一个完整的句子都被拆碎了丢失语义设得太大比如2000检索回来的信息可能包含大量无关内容干扰LLM判断。我经过多次测试对于通用问答500-800是一个不错的起点。chunk_overlap设置一点重叠能保证上下文的连贯性。3.2 将文本存入“记忆”向量化与入库文本切分好后它们还是人类可读的文字。我们需要用嵌入模型把它们转换成计算机擅长处理的向量然后存进Chroma数据库。# vector_store.py from langchain_community.vectorstores import Chroma from sentence_transformers import SentenceTransformer import os def create_vector_store(documents, persist_directory./chroma_db): 创建并持久化向量数据库 :param documents: 切分好的文档列表 :param persist_directory: 数据库保存路径 :return: 向量数据库对象 # 1. 初始化嵌入模型 # 注意这里我们使用sentence-transformers但通过LangChain的接口封装 from langchain_community.embeddings import HuggingFaceEmbeddings embedding_model HuggingFaceEmbeddings( model_nameall-MiniLM-L6-v2, # 你也可以换成paraphrase-multilingual-MiniLM-L12-v2支持多语言 model_kwargs{device: cpu}, # 如果有GPU可以改成cuda encode_kwargs{normalize_embeddings: True} # 标准化向量有利于相似度计算 ) print(嵌入模型加载成功。) # 2. 创建向量存储 # Chroma.from_documents 会做两件事 # a. 使用上面的embedding_model将每个文档块转换成向量 # b. 将所有向量和对应的原始文本、元数据存储到指定目录 vector_db Chroma.from_documents( documentsdocuments, embeddingembedding_model, persist_directorypersist_directory # 指定持久化目录 ) # 3. 显式持久化虽然from_documents通常会自动保存但显式调用更安全 vector_db.persist() print(f向量数据库已创建并保存至: {os.path.abspath(persist_directory)}) print(f共计存储了 {vector_db._collection.count()} 条向量记录。) return vector_db运行完这段代码后你会发现本地多了一个chroma_db文件夹里面就是你的知识库的向量化存储。一个关键点embedding_model在创建数据库时就被“绑定”到了这个数据库对象上。以后每次检索Chroma都会自动用同一个模型把用户的问题也转换成向量然后进行相似度匹配。这保证了存储和查询用的是同一把“尺子”否则结果会错乱。你可以写个简单的检索测试一下# 测试检索 test_question 夏天推荐去哪里旅游 retrieved_docs vector_db.similarity_search(test_question, k2) # k表示返回最相似的几条 print(f针对问题 {test_question}检索到以下相关文档) for i, doc in enumerate(retrieved_docs): print(f\n[{i1}] {doc.page_content[:150]}...) print(f 来源: {doc.metadata.get(source, N/A)})如果它能从你的本地文档里找到关于夏天旅游的段落那么“记忆库”部分就大功告成了。4. 为系统装上“千里眼”集成网络搜索本地知识库虽好但信息可能过时也可能覆盖不到用户突发奇想的问题。这时实时联网搜索能力就至关重要了。我们需要让系统能自己去网上查资料。4.1 构建一个简单的搜索工具我们不直接依赖某个商业搜索引擎的API可能有费用和速率限制而是采用一种更灵活的方式使用一个可自托管的、聚合型搜索引擎。我这里以SearXNG为例一个开源的元搜索引擎它本身不收集数据而是代理查询Google、Bing等众多引擎的结果并且可以部署在你自己的服务器上完全可控。假设你已经部署好了SearXNG服务部署教程网上很多核心就是一条Docker命令它的搜索API地址是http://你的服务器IP:8888/search。我们来封装一个搜索函数# search_tool.py import requests from langchain_core.documents import Document from typing import List import json class WebSearcher: def __init__(self, searxng_hosthttp://localhost:8888): self.search_url f{searxng_host}/search def search(self, query: str, num_results: int 5) - List[Document]: 执行网络搜索并将结果转换为LangChain的Document格式。 params { q: query, format: json, language: zh, safesearch: 0, time_range: None, # 可以设置为 day, week, month 等 categories: general, # 搜索类别general, news, science... pageno: 1, } try: response requests.get(self.search_url, paramsparams, timeout10) response.raise_for_status() # 检查HTTP错误 search_results response.json() except requests.exceptions.RequestException as e: print(f网络搜索请求失败: {e}) return [] except json.JSONDecodeError: print(搜索返回结果解析失败。) return [] # 将搜索结果转换为Document对象 documents [] if results in search_results: for i, result in enumerate(search_results[results][:num_results]): # 拼接标题和内容作为文档正文 content f标题{result.get(title, )}\n内容{result.get(content, )} # 构建元数据包含来源链接等 metadata { source: web_search, title: result.get(title, ), url: result.get(url, ), engine: result.get(engine, ), score: result.get(score, 0.0), search_rank: i1 } doc Document(page_contentcontent, metadatametadata) documents.append(doc) print(f网络搜索完成获取到 {len(documents)} 条结果。) return documents # 测试一下 if __name__ __main__: searcher WebSearcher() test_docs searcher.search(2024年巴黎奥运会最新金牌榜, 3) for doc in test_docs: print(f\n标题: {doc.metadata[title]}) print(f链接: {doc.metadata[url]}) print(f摘要: {doc.page_content[:100]}...)这个类做了几件事1) 向SearXNG发送搜索请求2) 解析返回的JSON格式结果3) 将每条结果构造成一个Document对象并附上来源、链接等元数据。这样网络搜索结果就和我们的本地文档在格式上统一了方便后续处理。4.2 打造混合检索器本地与网络结果的融合有了本地向量检索和网络搜索两个独立的能力下一步就是让它们协同工作。我们需要一个混合检索器Hybrid Retriever它的职责是同时发起本地检索和网络搜索然后将两边的结果收集起来进行去重、排序和筛选最后返回一个统一的、最相关的文档列表给LLM。这是整个项目的核心“调度中心”。我们通过继承LangChain的BaseRetriever基类来创建自定义检索器。# hybrid_retriever.py from langchain_core.retrievers import BaseRetriever from langchain_core.documents import Document from langchain_core.callbacks import CallbackManagerForRetrieverRun from typing import List from search_tool import WebSearcher # 导入我们刚写的搜索工具 from vector_store import vector_db # 假设我们已经有了初始化好的向量数据库对象 class HybridRetriever(BaseRetriever): 自定义混合检索器结合本地向量库和网络搜索。 def __init__(self, vector_store, web_searcher: WebSearcher, local_k: int 3, web_k: int 3): super().__init__() self.vector_store vector_store self.web_searcher web_searcher self.local_k local_k # 从本地库取多少条 self.web_k web_k # 从网络取多少条 def _get_relevant_documents( self, query: str, *, run_manager: CallbackManagerForRetrieverRun ) - List[Document]: 核心方法根据查询获取相关文档。当RetrievalQA链调用时会自动执行此方法。 all_documents [] # 1. 从本地向量库检索 print(f\n 正在从本地知识库检索...) local_docs self.vector_store.similarity_search(query, kself.local_k) for doc in local_docs: doc.metadata[retriever_source] local_vector_db # 标记来源 all_documents.extend(local_docs) print(f 本地检索到 {len(local_docs)} 条结果。) # 2. 执行网络搜索 print(f 正在执行网络搜索...) web_docs self.web_searcher.search(query, num_resultsself.web_k) for doc in web_docs: doc.metadata[retriever_source] web_search # 标记来源 all_documents.extend(web_docs) print(f 网络搜索到 {len(web_docs)} 条结果。) # 3. 可选结果融合与重排序 # 这里可以做更复杂的操作比如用交叉编码器cross-encoder对all_documents重新打分排序 # 为了简单起见我们目前只是简单合并本地结果在前。 # 你可以观察到本地结果通常更精确如果相关网络结果更广泛。 print(f✅ 混合检索完成总计 {len(all_documents)} 条候选文档。) return all_documents # 必须实现的方法通常直接调用上面的方法 async def _aget_relevant_documents(self, query: str) - List[Document]: # 异步版本如果需要可以在这里实现 return self._get_relevant_documents(query)这个自定义检索器就像一个智能调度员。用户提问后它兵分两路一路去本地数据库“翻书”一路去网上“搜索”。然后把两边的结果打包贴上“本地”或“网络”的标签一起交给下一个环节。在实际使用中你可能会发现网络结果质量参差不齐后续我们可以引入一个“重排序Rerank”模型比如Cohere的Rerank API或开源的BGE Reranker对所有候选文档进行精排把最相关的3-5条挑出来效果会更好。5. 组装智能问答链让LLM基于资料生成答案所有零件都准备好了现在要把它们组装成一台能运转的机器。核心就是构建一个RetrievalQA链。这个链定义了完整的工作流程接收用户问题 - 调用混合检索器找资料 - 把问题和资料组装成提示词Prompt - 发送给LLM - 返回答案。5.1 设计提示词模板告诉LLM如何工作提示词是引导LLM正确思考的“说明书”。一个好的提示词能极大提升答案的质量和可控性。# prompt_builder.py from langchain.prompts import PromptTemplate def build_hybrid_rag_prompt(): 构建混合检索RAG的提示词模板。这个模板明确告诉LLM信息的优先级和回答规则。 template 你是一个智能信息助手请根据以下提供的上下文信息来回答问题。上下文信息可能来自我的本地知识库也可能来自实时的网络搜索。上下文信息开始 {context} 上下文信息结束 **请严格遵守以下规则** 1. 你的回答必须严格基于上述上下文信息。如果上下文信息足以回答问题请基于它生成全面、准确的答案。 2. 如果上下文信息中包含网络搜索结果通常带有URL请优先使用这些最新信息并在答案中注明相关信息的来源例如根据[来源标题](URL)的报道...。 3. 本地知识库信息作为背景补充。如果网络信息与本地信息有冲突以更新的网络信息为准。 4. 如果提供的上下文信息与问题完全无关或者信息不足以回答问题请直接说“根据现有信息我无法回答这个问题”不要编造信息。现在请回答以下问题。问题{question} 答案 prompt PromptTemplate( templatetemplate, input_variables[context, question] ) return prompt这个模板我打磨了很久有几个关键点1) 用明确的标签上下文信息开始/结束框定输入范围防止LLM混淆2)明确优先级网络结果优先因为它更新3)强调基于事实要求注明来源并禁止胡编乱造4)处理未知情况明确告诉LLM在没信息时该怎么说。这能有效减少幻觉Hallucination。5.2 连接LLM并创建问答链接下来我们初始化大语言模型并用它、检索器和提示词模板组装成链。# qa_chain.py from langchain.chains import RetrievalQA from langchain_openai import ChatOpenAI # 注意这里用兼容OpenAI API的客户端 import os from hybrid_retriever import HybridRetriever from prompt_builder import build_hybrid_rag_prompt from vector_store import vector_db # 假设已初始化 from search_tool import WebSearcher def create_qa_chain(): # 1. 初始化LLM这里以调用本地部署的模型为例 # 关键确保你的模型服务提供了兼容OpenAI的API接口 llm ChatOpenAI( openai_api_keyyour-api-key-here, # 如果是本地部署这个可以随便填但必须有 openai_api_basehttp://192.168.1.100:8000/v1, # 你的模型服务地址 modelqwen2.5-7b-instruct, # 模型名称根据你的服务调整 temperature0.1, # 温度调低让答案更确定、更少创造性 max_tokens1024, streamingFalse, # 先关闭流式调试更方便 ) print(大语言模型初始化成功。) # 2. 初始化网络搜索工具和混合检索器 searcher WebSearcher(searxng_hosthttp://localhost:8888) retriever HybridRetriever(vector_storevector_db, web_searchersearcher, local_k2, web_k3) # 3. 获取提示词模板 prompt build_hybrid_rag_prompt() # 4. 创建RetrievalQA链 qa_chain RetrievalQA.from_chain_type( llmllm, chain_typestuff, # “stuff”模式将所有检索到的文档塞进上下文简单直接 retrieverretriever, # 使用我们自定义的混合检索器 chain_type_kwargs{prompt: prompt}, # 注入自定义提示词 return_source_documentsTrue, # 非常重要返回检索到的源文档方便追溯 verboseFalse, # 设为True可以看到链的详细执行步骤 ) print(混合检索问答链创建成功) return qa_chain这里有几个参数值得注意chain_typestuff这是最常用的方式把所有检索到的文档内容拼接起来一起传给LLM。优点是简单信息完整缺点是如果文档太多可能超出LLM的上下文长度限制。对于我们的混合检索因为总文档数不多比如5-6条用stuff很合适。return_source_documentsTrue这个选项至关重要它会让链在返回答案的同时也返回具体是哪些文档片段支撑了这个答案。这对于调试和增强用户信任度比如告诉用户“这个信息来源于XX链接”非常有用。5.3 运行与调试看看效果如何链创建好了让我们问它几个问题看看这个亲手搭建的系统到底灵不灵。# main.py from qa_chain import create_qa_chain def main(): # 创建问答链 qa_system create_qa_chain() # 测试问题列表 test_questions [ 根据你的知识夏天国内有哪些适合避暑的旅游目的地, 帮我总结一下2024年欧洲杯的冠军是谁, # 一个需要最新网络信息的问题我本地知识库里关于机器学习的那份文档主要讲了什么, # 一个依赖本地知识的问题 ] for question in test_questions: print(f\n{*60}) print(f用户问题{question}) print(f{*60}) # 调用链获取答案 result qa_system.invoke({query: question}) # 打印答案 print(f\n 助手回答\n{result[result]}\n) # 打印来源文档调试用 print( 本次回答参考了以下文档片段) for i, doc in enumerate(result[source_documents]): source doc.metadata.get(retriever_source, unknown) title doc.metadata.get(title, doc.metadata.get(source, 无标题)) print(f [{i1}] 来源: {source} | 标题/来源: {title}) print(f 内容摘要: {doc.page_content[:80]}...) # 只打印前80字符 print(f{*60}\n) if __name__ __main__: main()运行这个脚本你会看到系统先打印出从本地和网络检索的过程然后LLM生成答案最后列出它参考了哪些文档。对于第二个关于2024年欧洲杯的问题如果本地知识库没有它应该能通过网络搜索找到最新结果并回答。如果网络搜索配置正确你甚至能在答案里看到它引用了新闻网站的链接。6. 项目优化与踩坑心得系统能跑起来只是第一步要让它好用、可靠还需要很多优化。这里分享几个我实战中总结的关键点和遇到的“坑”。6.1 效果提升技巧重排序与上下文管理引入重排序Reranking我们之前的混合检索只是简单合并结果。但本地最相似的3条加上网络最相似的3条这6条里可能只有2-3条是真正高度相关的。我后来集成了一个开源的BGE-Reranker模型让这6条文档再“PK”一次只把最相关的Top-3传给LLM。这样做之后答案的准确性和相关性肉眼可见地提升了因为LLM接收到的“噪音”变少了。代码上就是在HybridRetriever._get_relevant_documents方法的最后加入重排序步骤。优化上下文窗口LLM有上下文长度限制比如4096个token。当检索到的文档总长度接近或超过这个限制时stuff链会报错。解决方案使用chain_typemap_reduce或refine这些链式处理长文档但速度会慢且可能丢失全局信息。动态选择文档不是固定返回k条而是根据文档长度在token数达到阈值前就停止添加。这需要更精细的控制。压缩文档在将文档塞进上下文前先用一个小的LLM或摘要模型对每个文档块进行摘要只传递摘要。LangChain里有ContextualCompressionRetriever就是这个思路。元数据过滤如果你的本地知识库文档有清晰的元数据比如{“doc_type”: “技术报告”, “year”: “2023”}你可以在检索时增加过滤条件。例如当用户问“最新的财务数据”时可以要求向量数据库只检索year大于等于2023的文档。这能极大提升检索精度。在similarity_search时可以传入filter参数。6.2 常见问题与排查问题LLM回答“根据现有信息我无法回答这个问题”但明明检索到了相关文档。排查首先检查return_source_documentsTrue是否打开看看实际传给LLM的上下文是什么。很可能是因为提示词模板没设计好LLM没有正确理解要从上下文中找答案。可以尝试在提示词里用更强烈的指令比如“你必须使用以下上下文”。我的经验在提示词里用三个反引号包裹上下文并加上“以下是唯一可用的信息”这样的前缀效果会更好。问题网络搜索很慢拖慢了整个问答速度。排查1) 检查SearXNG服务器网络2) 设置合理的timeout比如5秒避免长时间等待3) 考虑异步执行。将本地检索和网络搜索改为异步任务asyncio.gather可以并行执行显著减少总耗时。这需要实现检索器的_aget_relevant_documents异步方法。问题向量数据库检索结果不相关。排查1) 检查文本切分chunk_size是否合理。内容太碎或太大都会影响效果。尝试调整大小。2) 尝试不同的嵌入模型。all-MiniLM-L6-v2是通用型对于特定领域如医学、法律使用在该领域微化过的嵌入模型如BGE系列效果会飞跃。3) 检查查询语句。有时把用户问题用另一个LLM或简单规则改写一下再检索效果更好这叫“查询重写”或“查询扩展”。问题部署后性能不佳。经验将向量数据库Chroma持久化到磁盘后每次启动只需加载不需要重新计算嵌入这很快。主要的性能瓶颈在LLM调用和网络搜索。对于LLM考虑使用更轻量的模型如7B参数模型或在GPU上部署。对于网络搜索可以引入一个简单的缓存机制对相同或相似的查询在一定时间内比如10分钟直接返回缓存结果避免重复搜索。构建这个混合检索RAG系统的过程就像在组装一个功能强大的机器人。从准备零件环境、数据到打造核心器官向量库、搜索器再到设计大脑的思考逻辑提示词、问答链每一步都需要动手调试和思考。当它最终能流畅地回答你各种问题并且答案里既有你沉淀的本地知识又有新鲜的网络信息时那种成就感是非常实在的。我提供的完整源码已经打包你可以在我的GitHub仓库找到。希望这个实战指南能帮你少走弯路快速搭建起属于自己的智能问答助手。