一个手机网站,教育网站都有哪些,电信备案网站,最新的网站开发技术GLM-OCR仅0.9B参数的轻量级身躯#xff0c;便以94.6分登顶OmniDocBench V1.5#xff0c;并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。刚刚#xff0c;智谱发布并开源GLM-OCR。GLM-OCR仅0.9B参数的轻量级身躯#xff0c;便以94.6分登顶OmniDocBench V…GLM-OCR仅0.9B参数的轻量级身躯便以94.6分登顶OmniDocBench V1.5并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。刚刚智谱发布并开源GLM-OCR。GLM-OCR仅0.9B参数的轻量级身躯便以94.6分登顶OmniDocBench V1.5并在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。通过多Tokens预测损失与深度强化学习技术以“小尺寸、高精度”为文档解析、复杂表格还原及手写体识别等树立新标杆。小参数解决视觉感知难题GLM-OCR用精密的模型设计与针对性的场景优化在特定领域实现超越巨型模型的效能。表现优于多款OCR专项模型性能直逼Gemini-3-Pro这种顶尖的闭源模型。GLM-OCR针对真实业务中的六大核心场景进行了深度打磨在代码文档的解析中它能精准保留缩进与语法结构在真实场景的表格处理中它能看穿合并单元格的复杂逻辑面对书写习惯各异的手写体它展现出了惊人的鲁棒性即使是多语言混排、印章遮挡文字、各类票据提取等高难度任务GLM-OCR也依然能保持极高的准确率。在实际应用案例中GLM-OCR展现出了令人印象深刻的适应能力。能够精准识别并还原手写体、印章内容、代码段落等这对于教育行业的试卷批改、科研领域的文献整理以及办公场景下的档案数字化都有重要意义。我们来看一个手写公式识别的案例数学公式通常包含复杂的上下标、特殊符号以及空间结构传统OCR往往将其识别为乱码GLM-OCR却能精准还原每一个符号及其位置关系将其转化为可编辑的格式。印章识别是另一个极具挑战的场景印章通常覆盖在文字之上且包含圆弧形文字排列GLM-OCR不仅能识别印章内的文字还能有效分离印章与背景文字的重叠干扰确保关键信息的准确提取。对于程序员和技术文档编写者来说代码识别的准确性至关重要代码中的标点符号、缩进层级一旦出错代码就会失效GLM-OCR在处理代码截图时能够像专业的IDE一样准确还原代码的结构和语法细节。表格解析一直是OCR领域的难点尤其是面对合并单元格、多层表头以及跨页表格时传统方案往往输出一堆错位的文本GLM-OCR引入了对复杂版式的深度理解能够精准识别表格结构并直接输出HTML代码。用户无需进行二次制表识别结果可以直接嵌入网页展示或导入数据库进行后续处理这种“所见即所得”的能力大幅提升了数据录入与转换的效率。在信息结构化提取方面GLM-OCR展示了它作为“数据解析器”的强大实力它不仅能读出文字还能理解文字背后的业务含义它可以从各类卡证、票据、表格中智能提取关键字段并按照用户指定的要求输出标准的JSON格式。这种能力让它能够无缝对接银行的信贷审核系统、保险公司的理赔流程以及物流行业的单据录入系统将原本需要人工录入的繁琐工作转化为全自动化的数据流。我们通过一个具体的报关单案例来感受这种能力输入一张包含复杂排版、中英文混排、手写签名及盖章的“中华人民共和国海关出口货物报关单”图片。用户通过Prompt提示词要求模型按照特定的JSON格式提取信息包括发货人、收货人、运输方式、商品信息列表等极度细节的内容。GLM-OCR给出的输出不仅准确填入了所有字段还完美处理了嵌套结构例如在“商品信息”列表中它准确识别了商品的项号、编号、名称及数量等细节并正确对应了“生产销售单位”的名称与信用代码。高精度的识别能力和规整的输出格式对于检索增强生成RAG系统而言无异于提供了高质量的燃料只有当底层的文档解析足够准确上层的AI应用才能基于可靠的数据生成有价值的回答。视觉编码与语言解码的精密协作GLM-OCR之所以能在0.9B的参数规模下实现如此惊人的性能归功于其系统性的多模态模型结构设计它摒弃了简单的拼接策略而是精心设计了“视觉编码器-连接层-语言解码器”的三级火箭架构。这一架构继承自GLM-V系列经过针对性的瘦身与强化使其在OCR任务上达到了效能的巅峰。视觉侧的核心是自研的CogViT视觉编码器参数量约为400M这个编码器并不只是简单地看图它在数十亿级的高质量图文对数据上进行了大规模预训练并引入了CLIP策略。为了将CogViT捕捉到的丰富视觉信息高效地传递给语言模型GLM-OCR设计了一套轻量而高效的连接层结构融合了SwiGLU机制并引入了4倍下采样策略的精密组件。SwiGLU作为一种高性能的激活函数能够增强模型捕捉复杂特征的能力而4倍下采样策略则像是一个高智能的压缩算法它能够精准筛选并保留关键的视觉Token去除冗余信息。这种设计确保了高密度的语义信息能够被高效地传递至后端的解码器既保留了图像的细节又减轻了解码器的计算负担。模型的大脑部分是GLM-0.5B解码器这是一个经过深度优化的语言模型它负责接收经过筛选的视觉信息并将其翻译成人类可读的文本或结构化代码。在训练策略上GLM-OCR率先将多Tokens预测损失MTP引入了OCR模型的训练过程传统的训练方式往往是预测下一个Token而MTP则要求模型同时预测未来的多个Token。这显著增强了损失信号的密度迫使模型在学习过程中建立更长程的上下文依赖从而提升了学习效率。除了基础训练GLM-OCR还通过持续且稳定的全任务强化学习RL训练进行了进一步打磨强化学习让模型在各种复杂的文档场景下不断试错并获得反馈从而显著提升了模型的鲁棒性。GLM-OCR不仅在标准数据集上表现出色在面对真实世界中那些光照不均、折痕严重、字迹潦草的文档时依然能保持稳定的识别精度。在整体系统层面GLM-OCR采用了“版面分析→并行识别”的两阶段技术范式。版面分析模块基于PP-DocLayout-V3实现它像是一个经验丰富的排版编辑能够迅速分析出文档的结构区分出段落、表格、图片和标题。先分析后识别的流程确保了面对版式多样、结构复杂的文档时模型不会迷失方向能够实现稳定、高质量且高效率的OCR解析效果。端侧与高并发部署在追求高精度的同时GLM-OCR并没有牺牲速度与成本反而通过极致的工程优化实现“更快、更便宜”。速度方面GLM-OCR在相同硬件环境与测试条件下展现出了显著的优势在单副本、单并发的严格测试中处理PDF文档的吞吐量达到了惊人的1.86页/秒处理单纯的图像文件也能达到0.67张/秒。高效的推理能力得益于其仅0.9B的参数规模以及对vLLM、SGLang和Ollama等主流推理框架的全面支持。小参数意味着更低的显存占用和更少的计算量这使得GLM-OCR非常适合高并发场景甚至可以直接部署在边缘设备上。企业无需购买昂贵的集群利用现有的算力资源即可快速搭建起高性能的OCR服务显著降低了推理延迟与算力开销。在价格方面GLM-OCR更是打破了行业的底价API调用采取输入输出同价的策略仅需0.2元/百万Tokens。这是一个极具破坏力的价格在这个标准下用户仅需花费1元人民币即可处理约2000张A4大小的扫描图片或者完成200份10页简单排版PDF的解析。与传统的OCR方案相比其成本仅为后者的十分之一左右这种数量级的成本下降将彻底改变企业数字化转型的成本结构让大规模的历史档案数字化成为可能。从高精度的识别能力到灵活的结构化输出从精密的模型架构到极致的推理效率GLM-OCR用全方位的技术突破推动文档智能化处理迈向新台阶。