做服装网站要那些照片一线全屋定制10大品牌
做服装网站要那些照片,一线全屋定制10大品牌,可以发布广告的网站,网站加关键词本文详细介绍了如何利用大模型技术实现自动化报销系统#xff0c;解决日常出差中手动填写行程单的繁琐问题。文章涵盖了系统架构设计#xff0c;包括AI中台、后台管理系统等关键组件#xff0c;并深入探讨了PDF处理、向量库、数据安全等难点。此外#xff0c;还提供了具体的…本文详细介绍了如何利用大模型技术实现自动化报销系统解决日常出差中手动填写行程单的繁琐问题。文章涵盖了系统架构设计包括AI中台、后台管理系统等关键组件并深入探讨了PDF处理、向量库、数据安全等难点。此外还提供了具体的代码示例和开发建议帮助程序员快速上手大模型应用提升开发效率和准确性。一、需求背景在日常出差报销流程中我们需要单次 / 批量上传发票手动填写行程单非常耗时且繁琐本次需求将实现这个场景的自动化不仅可以节省时间还可以提高数据处理的准确性。本次需求存在几个难点1、PDF 处理包括长文本切割、OCR 高精度识别、文字组装等2、向量库语义准确性、向量库性能3、数据安全与隐私4、大模型运维与部署5、大模型、Agent 系统集成等6、知识库的维护。二、系统架构系统由产品、AI 中台以及后台管理系统几部分组成。2.1、AI 中台不管是大模型还是小模型我们需要将 AI 相关的能力集中管理起来这里我们只用到了模型服务MaaS也就是说我们这里假设模型已经训练好微调好可以直接通过接口进行调用。实际上 AI 中台还包括其他模块比如数据采集、标注、模型训练等等这里我们只用到模型服务下一节课我们再详细介绍 AI 中台的架构设计。AI 中台最好至少通过 2 个应用去承接一个提供对外 API 服务使用 Java 语言构建一个 AI 模型服务使用 Python 应用构建。2.1.1、应用服务为了确保服务的稳定性和安全性我们采用 Java 语言开发对外接口服务应用。这个应用通过 App 进行管理并使用 AppKey 和 AppSecret 进行接口鉴权。此外我们还基于 AppKey 实施了接口权限控制和调用频率限制。主要考虑以下几点1、接口调用限速。大模型推理需要使用比较多的 GPU 资源尤其对于刚上线、流量比较大的应用除了提前做好资源评估准备适量的设备资源还要做好降级的准备因为有很多不可预估的情况可能会出现比如流量突增、推理效率下降等等都会导致 GPU 资源缺乏从而影响用户使用一旦 GPU 出现 GPU 资源紧张的情况要及时启动限流可以提前制定几种策略比如按分钟 / 秒限制 QPS或者把一些流量大户加入黑名单可以通过用户 IP/ID 等标识进行控制这块和我们普通软件应用限流原理一致。2、文件大小和格式限制对文件大小和类型做一个限制保护系统免受“攻击”比如将文件类型限定在只能处理 PDF 上甚至只能处理原生 PDF 格式大小不超过 10M否则你不知道会有什么人直接上传多大的文件到系统增加系统宕机风险。3、上传文件频率限制其实这是限制接口调用频率的一种比如同一个用户每分钟只能上传 1 次要不然一个人不断重复上传也会给系统带来很大压力。4、模型服务计费无论是使用自己搭建的大模型还是调用大厂 API 服务最好要把 tokens 记录下来方便做费用统计以及最终对账。2.1.2、模型服务这部分是 AI 能力的核心涉及数据处理、词嵌入、模型实际调用等等我们使用 Python 作为构建语言用过的人都知道Python 就是天然为机器学习而生的大量的工具库要比其他任何语言都方便。这个场景下主要涉及以下几个模块2.1.2.1、PDF 处理这块我们通过一个 Agent 去处理包含 PDF 切分、OCR 识别等。PDF 处理可能会面临各种各样的问题比如如果 PDF 文件里是图像嵌入的那么就需要 OCR一旦使用 OCR 就会涉及正确率的问题再比如文件处理本身就是资源密集型操作容易导致系统负载过重的情况。PDF 处理工具有很多种比如 pdfplumber、PyPDF2、pytesseract 等有的是纯文本 PDF 内容抽取比如 PyPDF2有的是 OCR 识别如 pytesseract作为一个通用工具我们可以先检测 PDF 中是否包含图片不包含图片的话直接使用 PyPDF2你可以看一下示例代码。importPyPDF2 from pytesseractimportimage_to_string from PILimportImageimportpdf2image def extract_text_from_pdf(pdf_path): 从给定的PDF文件中提取文本包括图像中的文本。 all_texttry:# 打开PDF文件with open(pdf_path,rb)as file: readerPyPDF2.PdfReader(file)num_pageslen(reader.pages)# 将PDF转换为图像一页一页处理imagespdf2image.convert_from_path(pdf_path)foriinrange(num_pages): pagereader.pages[i]imageimages[i]# 先尝试直接从PDF页提取文本textpage.extract_text()or# 如果提取到的文本太少可能需要OCRiflen(text.strip())50:# 例如少于50个字符视为提取失败textimage_to_string(image,langchi_sim)all_textfPage {i 1}:\n{text}\n\nexcept Exception as e: print(fAn error occurred: {e})returnall_text# 示例用法pdf_file_pathpath_to_your_pdf_file.pdfextracted_textextract_text_from_pdf(pdf_file_path)ifextracted_text: print(extracted_text)2.1.2.2、词嵌入词嵌入的原理我就不讲了前面的课程中有详细的解释。在这个场景里我们可以把发票图像的特征提取出来生成向量存放到向量数据库做图像数据检索当然本质还是文本检索用向量搜索的好处是语义检索比如有些词汇长得不一样但实际含义是一样的那么这种场景用向量检索就很容易检索出来。比如我们要检索所有维修服务类的发票发票 A 写着车辆维修费用包括更换刹车片和轮胎检查发票 B 写着为汽车进行的常规保养服务包括制动系统和轮胎的维护发票 C 写着完成对车辆制动系统的全面检查及轮胎更换服务那么通过向量检索这 3 种情况都有可能搜索出来。具体选择哪个词嵌入模型可以自己判断一般像 Google 的 Word2VecMeta 的 fastText 效果都不错当然国产的也有比如腾讯的 TX-WORD2VEC。2.1.2.3、向量数据库向量数据库可以选择 Meta 的 faiss也可以选择国产的 Milvus 或者各个云厂商的云向量数据库向量数据库效果好坏的关键在于向量的准确性怎么分词很关键比如刚刚的例子检索维修服务分词的时候如果把维修和服务分开然后拿服务这个词去检索那么准确度会大打折扣。所以在一些场景下避免客户直接输入检索内容效果可能会更好。此外使用前还要先评估好容量、数据库权限等等。2.1.2.4、Agent我们把处理 PDF 的整个过程放到一个 Agent 内处理处理的结果直接喂给大模型大模型输出的内容可以调用 Agent 的另一个 tool 进行组装返回给用户。这里主要涉及 prompt 组装需要提前设定好 prompt 模版、文本格式化、文件生成等内容。2.1.2.5、大语言模型大语言模型就是这个系统的核心这里我们要先考虑是用本地自己搭建的模型还是用大厂提供的 API。一般来说大厂的模型性能会更好比如文心一言、智谱清言、通义千问等效果都不错价格也不贵自己搭建的大模型为了节省资源一般使用的是小规模参数的模型比如 ChatGLM3-6B、LLaMa3-8B、Qwen-7B 等实测下来效果确实不如云上的大模型云上的一般大厂都会放自己王牌的模型效果肯定不会差。另外如果选择自己搭建模型首先要注意这个模型是否支持免费商用别一不小心造成侵权。同时需要合理评估 GPU 资源根据可能的 QPS 评估每秒 token 数再根据这个模型实际的每秒处理 token 数评估需要多少块显卡预留一定的余量防止突发情况。如果选择云上模型服务要注意保证账户余额充足同时也可以设置一些阈值限制一定的 tokens 消耗数避免因为 bug 或者攻击消耗大量金额。2.2、后台管理系统我们需要一个系统来维护知识库定期更新数据这是使用知识库模式的一个不同点而且会有一定的工作量比如如何进行分词有的时候是人工操作这样就更有难度了短期内如果时间来不及可以由开发人员维护只需要有接口就行不需要界面长远看最好还是做成后台管理系统分配一定的权限交由特定人员处理。2.3、其他除了刚刚介绍的内容其他注意事项比如监控、告警常规的数据库设计、接口设计等就不详细描述了和软件开发相关的内容我相信你是比较熟悉的这里新增的像大模型、Agent 的监控、向量数据库的监控要记得添加到标准的 ops 流程中。2.4、风险点PDF 抽取文本信息的过程中可能会遇到 OCR 准确率问题可以在产品设计上给用户留有一定的权限以便编辑信息如果出现识别错误或者不能识别的情况允许用户手动编辑信息。词嵌入及向量数据库需要多调试不同的词嵌入模型使用的训练方式不同效果不同需要不断调试看效果。大模型推理效率问题需要合理评估设备资源避免推理资源不足带来不好的体验。Agent 集成可以使用像我们前面学习的 LangChain 框架也可以自己编写集成代码。自己维护知识库需要有一定的分词能力。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】