做外销网站服务器好吗,分析网站的优势和不足,wordpress摘要排除代码,青岛招聘seo点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID#xff5c;计算机视觉研究院 学习群#xff5c;扫码在主页获取加入方式 https://arxiv.org/pdf/2509.25164 计算机视觉研究院专栏 Column of Computer Vision Institute 本研究对Ultralytics YOLO26进行了…点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID计算机视觉研究院学习群扫码在主页获取加入方式https://arxiv.org/pdf/2509.25164计算机视觉研究院专栏Column of Computer Vision Institute本研究对Ultralytics YOLO26进行了全面分析重点阐述了其面向实时边缘目标检测的关键架构改进与性能基准测试。PART/1概述YOLO26于2025年9月发布是YOLO系列中最新、最先进的模型专为在边缘和低功耗设备上实现效率、精度与部署就绪性而设计。论文依次详述了YOLO26的架构创新包括移除分布焦点损失DFL、采用端到端无NMS推理、整合渐进式损失ProgLoss与小目标感知标签分配STAL以及引入MuSGD优化器以实现稳定收敛。除架构外本研究还将YOLO26定位为一个多任务框架支持目标检测、实例分割、姿态/关键点估计、定向检测与分类任务。我们在NVIDIA Jetson Nano、Orin等边缘设备上对YOLO26进行了性能基准测试并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13及基于Transformer的检测器进行了对比。论文进一步探索了实时部署路径、灵活的导出选项ONNX、TensorRT、CoreML、TFLite以及INT8/FP16量化方案。文中还重点介绍了YOLO26在机器人、制造与物联网等领域的实际应用场景以展现其跨行业适配能力。最后本文探讨了部署效率的相关见解与更广泛的应用价值并概述了YOLO26及整个YOLO系列的未来发展方向。PART/2背景目标检测已成为计算机视觉领域最关键的任务之一它使机器能够对图像或视频流中的多个目标进行定位与分类。从自动驾驶、机器人技术到安防监控、医学影像、农业与智能制造实时目标检测算法都是人工智能AI应用的核心支柱。在这些算法中“只看一次”YOLO系列已成为最具影响力的实时目标检测模型它将精度与前所未有的推理速度相结合。自2016年问世以来YOLO历经了多次架构迭代每次迭代都在解决前代模型局限的同时融入了神经网络设计、损失函数与部署效率等方面的前沿进展。2025年9月发布的YOLO26是YOLO系列的最新里程碑其设计重心从逐步增加的架构复杂度转向面向部署的简化——最突出的表现是回归流程的精简、端到端的预测行为以及通过新型优化技术实现的训练阶段改进。这种“边缘优先”的设计理念体现在图1a的精度-延迟对比趋势中Ultralytics在该图中展示了YOLO26在T4平台、TensorRT 10、FP16精度下的COCO mAP(50-95)与延迟性能并与众多前代YOLO变体YOLO11、YOLOv10、YOLOv9、YOLOv8、YOLOv7、YOLOv6-3.0、YOLOv5以及竞品实时检测器PP-YOLOE、DAMO-YOLO、RTMDet进行了对比。作为补充图1b在相同的COCO mAP(50-95)与端到端延迟坐标系中将YOLO26与Transformer架构的实时基线模型YOLOv10与RT-DETR系列进行了对比这凸显了YOLO26的目标在保持高检测质量的同时降低整个流程的延迟——这一点对低功耗、对延迟敏感的边缘设备而言是尤为关键的权衡。表1详细对比了从YOLOv1到YOLOv13及YOLO26的各版YOLO模型重点列出了它们的发布年份、关键架构创新、性能提升与开发框架。YOLO框架最初由Joseph Redmon及其同事于2016年提出为目标检测领域带来了范式变革。与R-CNN、Faster R-CNN等传统两阶段检测器不同——这类模型会将区域生成与分类分开处理YOLO将检测任务转化为单一回归问题。它通过单次卷积神经网络CNN前向传播直接预测边界框与类别概率在保持具备竞争力的精度的同时实现了实时推理速度。这种效率让YOLOv1在延迟敏感的应用场景中极具吸引力例如机器人、自主导航与实时视频分析。后续版本YOLOv22017年与YOLOv32018年在保持实时性能的同时显著提升了精度。YOLOv2引入了批量归一化、锚框与多尺度训练增强了对不同尺寸目标的鲁棒性。YOLOv3采用了基于Darknet-53的更深架构结合多尺度特征图以优化小目标检测。这些改进让YOLOv3在数年内成为学术界与工业界的事实标准。随着对更高精度的需求增长尤其是在航空影像、农业与医学分析等复杂场景中YOLO模型演变为更先进的架构。YOLOv42020年引入了跨阶段局部网络CSPNet、Mish等改进型激活函数以及马赛克数据增强、CIoU损失等先进训练策略。YOLOv5Ultralytics2020年虽非官方版本但凭借其PyTorch实现、庞大的社区支持以及在多平台上的简化部署能力获得了极高的人气。YOLOv5还具备模块化特性使其更易适配分割、分类与边缘场景。后续发展包括YOLOv6与YOLOv72022年它们整合了先进的优化技术、参数高效模块与Transformer启发的结构。这些迭代在聚焦实时推理的同时让YOLO更接近当前最优SoTA精度基准。至此YOLO生态已牢固确立了其在目标检测研究与部署领域的领先地位。作为现代YOLO版本的主要维护者Ultralytics通过YOLOv82023年重新定义了该框架。YOLOv8采用了解耦检测头、无锚框预测与改进的训练策略在精度与部署灵活性上均取得了显著提升。凭借简洁的Python API、与TensorRT、CoreML、ONNX的兼容性以及针对速度/精度权衡优化的多尺寸变体nano、small、medium、large、extra-large它被工业界广泛采用。YOLOv9、YOLOv10与YOLO11紧随其后每次迭代都突破了架构与性能的边界。YOLOv9引入了通用高效层聚合网络GELAN与渐进式蒸馏在效率与更高表征能力间实现了平衡。YOLOv10通过混合任务对齐分配机制聚焦于平衡精度与推理延迟。YOLO11进一步深化了Ultralytics的设计理念在GPU上实现了更高效率同时保持了出色的小目标检测性能。这些模型共同巩固了Ultralytics的声誉其产出的YOLO版本可直接用于生产且专为现代部署流程量身打造。继YOLO11之后替代版本YOLOv12与YOLOv13引入了以注意力为核心的设计与先进架构组件旨在提升跨多样数据集的精度。这些模型探索了多头自注意力、改进的多尺度融合与更强的训练正则化策略。尽管它们取得了出色的基准测试结果但仍依赖非极大值抑制NMS与分布焦点损失DFL这给低功耗设备带来了延迟开销与导出挑战。基于NMS的后处理与复杂损失函数的局限性推动了YOLO26的研发Ultralytics YOLO26官方来源。2025年9月在伦敦举办的YOLO Vision 2025活动中Ultralytics发布了YOLO26这一新一代模型它专为边缘计算、机器人与移动AI场景优化。PART/3相关工作YOLO26的设计围绕三大核心原则展开简洁、高效与创新。图2的概述将这些设计选择与其支持的五大任务相结合目标检测、实例分割、姿态/关键点检测、定向检测与分类。在推理路径上YOLO26移除了NMS原生支持端到端预测消除了主要的后处理瓶颈减少了延迟波动并简化了跨部署场景的阈值调优。在回归环节它移除了DFL将分布式框解码转化为更轻量、更易适配硬件的形式可完美导出至ONNX、TensorRT、CoreML与TFLite这对边缘与移动部署而言是切实的优势。这些改进共同造就了更精简的图结构、更快的冷启动速度与更少的运行时依赖在CPU受限与嵌入式场景中尤为有益。训练稳定性与小目标检测效果则通过ProgLoss渐进式损失平衡与STAL小目标感知标签分配得到解决。ProgLoss会动态调整目标权重防止训练后期简单样本主导优化STAL则优先为微小或被遮挡的实例分配标签提升了在航空、机器人与智能摄像头等场景中常见的杂乱、植被遮挡或运动模糊条件下的召回率。优化过程由MuSGD驱动这是一种混合优化器融合了SGD的泛化能力与受Muon算法启发的动量/曲率特性可实现更快、更平滑的收敛并在不同尺度下获得更稳定的性能平台期。如图2再次强调的YOLO26的五项能力共享统一的骨干网络/颈部结构与精简的头部结构目标检测无锚框、无NMS的边界框与置信度输出实例分割轻量化掩码分支与共享特征耦合姿态/关键点检测紧凑的关键点头部用于人体或局部特征点检测定向检测旋转框用于倾斜目标与细长目标分类单标签对数概率输出用于纯识别任务这种一体化设计支持多任务训练或任务专属微调无需修改架构同时简化的导出流程保证了跨加速器的可移植性。综上YOLO26通过将端到端推理、无DFL回归与ProgLoss、STAL、MuSGD相结合推动了YOLO系列的发展最终得到一个部署更便捷、训练更稳定、能力更全面的模型这一点在图2中也得到了直观体现。PART/4新算法框架解析YOLO26的架构遵循一条精简高效的流程专为边缘与服务器平台的实时目标检测场景设计。如图3所示该流程始于图像或视频流形式的输入数据首先会经过预处理操作包括缩放与归一化将数据调整为适合模型推理的标准尺寸。随后数据被送入骨干特征提取网络由一个紧凑但性能强劲的卷积网络捕获视觉模式的层级表征。为增强跨尺度鲁棒性该架构会生成多尺度特征图图3以保留大、小目标的语义信息。这些特征图会在特征融合颈部进行合并以计算高效的方式整合信息。检测相关的处理在直接回归头部完成——与前代YOLO版本不同它无需依赖非极大值抑制NMS即可输出边界框与类别概率。这种端到端无NMS的推理图3消除了后处理开销加速了部署流程。训练稳定性与精度则由ProgLoss平衡模块与STAL分配模块保障它们确保了损失项的高效加权与小目标检测效果的提升。模型优化由MuSGD优化器驱动该优化器融合了SGD与Muon算法的优势可实现更快、更稳定的收敛。通过量化支持FP16与INT8精度部署效率进一步提升能在CPU、NPU与GPU上加速推理且精度损失极小。最终流程生成包含边界框与类别分配的输出预测并可叠加可视化在输入图像上。总体而言YOLO26的架构体现了一种精心平衡的设计理念在提升精度、稳定性的同时也简化了部署流程。YOLO26引入了多项关键架构创新使其有别于前代YOLO模型。这些改进不仅提升了训练稳定性与推理效率还从根本上重塑了实时边缘设备的部署流程。本节将详细介绍YOLO26的四大核心贡献i移除分布焦点损失DFLii引入端到端无NMS推理iii新的损失函数策略包括渐进式损失平衡ProgLoss与小目标感知标签分配STALiv开发MuSGD优化器以实现稳定高效的收敛。每个架构优化都会被详细阐述并通过对比分析突出其相对于YOLOv8、YOLOv11、YOLOv12与YOLOv13等早期YOLO版本的优势。移除分布焦点损失DFLYOLO26最显著的架构简化之一是移除了分布焦点损失DFL模块图4——该模块曾存在于YOLOv8、YOLOv11等前代YOLO版本中。DFL最初设计用于通过预测框坐标的概率分布来提升边界框回归效果从而实现更精准的目标定位。尽管这一策略在早期模型中展现了精度增益但也引入了不小的计算开销与导出难题。在实际部署中DFL需要在推理与模型导出阶段进行特殊处理这让面向硬件加速器如ONNX、CoreML、TensorRT或TFLite的部署流程变得复杂。通过移除DFLYOLO26简化了模型架构使边界框预测成为更直接的回归任务且未牺牲性能。对比分析表明YOLO26在结合ProgLoss与STAL等其他创新后精度与基于DFL的YOLO模型相当甚至更优。此外移除DFL显著降低了推理延迟提升了跨平台兼容性这对边缘AI场景至关重要——在这类场景中轻量化、硬件友好的模型是核心需求。相比之下YOLOv12与YOLOv13等模型仍保留了DFL尽管它们在GPU充裕的环境中取得了出色的精度基准但受限于DFL其在资源受限设备上的适用性受到了限制。因此YOLO26的这一改进是让当前最优目标检测性能与移动、嵌入式及工业应用的实际需求对齐的关键一步。端到端无NMS推理YOLO26另一项突破性的特性是原生支持无需非极大值抑制NMS的端到端推理参见图4b。传统YOLO模型包括YOLOv8至YOLOv13在很大程度上依赖NMS作为后处理步骤仅保留置信度最高的边界框以过滤重复预测。尽管NMS有效但它会为流程增加额外延迟且需要手动调整交并比IoU阈值等超参数。这种对人工设计后处理步骤的依赖会让部署流程变得脆弱尤其在边缘设备和对延迟敏感的应用中。YOLO26从根本上重新设计了预测头部可直接生成无冗余的边界框预测无需依赖NMS。这种端到端设计不仅降低了推理复杂度还消除了对手动调整阈值的依赖从而简化了向生产系统的集成。对比基准测试显示YOLO26的推理速度比YOLOv11和YOLOv12更快其中nano模型的CPU推理时间最多可减少43%。这让YOLO26在移动设备、无人机和嵌入式机器人平台上极具优势——在这些场景中毫秒级的延迟也会对运行产生重大影响。除速度外无NMS的设计还提升了结果的可复现性与部署可移植性模型不再需要复杂的后处理代码。虽然RT-DETR和Sparse R-CNN等其他先进检测器也尝试过无NMS推理但YOLO26是首个采用该范式同时又保持了YOLO标志性的速度与精度平衡的YOLO版本。与仍依赖NMS的YOLOv13相比YOLO26的端到端流程是面向未来的实时检测架构。ProgLoss与STAL增强训练稳定性与小目标检测训练稳定性与小目标识别仍是目标检测领域的长期挑战。YOLO26通过整合两种创新策略解决了这些问题渐进式损失平衡ProgLoss与小目标感知标签分配STAL如图4c所示。ProgLoss会在训练期间动态调整不同损失项的权重确保模型不会过拟合占主导的目标类别同时也不会在稀有或小类别上表现不佳。这种渐进式重平衡提升了模型泛化能力并防止了训练后期的不稳定性。另一方面STAL会明确优先为小目标分配标签——小目标由于像素表征有限且易被遮挡通常更难检测。ProgLoss与STAL的结合让YOLO26在包含小目标或被遮挡目标的数据集如COCO与航空影像基准上获得了显著的精度提升。相比之下YOLOv8和YOLOv11等早期模型并未集成这类针对性机制往往需要特定于数据集的增强或外部训练技巧才能获得可接受的小目标性能。YOLOv12和YOLOv13尝试通过基于注意力的模块与增强的多尺度特征融合来弥补这一不足但这些方案增加了架构复杂度与推理成本。YOLO26则以更轻量化的方式实现了相当甚至更优的改进进一步巩固了其在边缘AI场景中的适用性。通过整合ProgLoss与STALYOLO26成为了一个稳健的小目标检测器同时保持了YOLO系列的效率与可移植性。用于稳定收敛的MuSGD优化器YOLO26的最后一项创新是引入了MuSGD优化器图4d它融合了随机梯度下降SGD的优势与近期提出的Muon优化器的特性——Muon是一种受大语言模型LLM训练优化策略启发的技术。MuSGD既保留了SGD的鲁棒性与泛化能力又融入了Muon的自适应特性可在多样的数据集上实现更快的收敛与更稳定的优化。这种混合优化器反映了现代深度学习的一个重要趋势自然语言处理NLP与计算机视觉领域的技术交叉融合。通过借鉴LLM训练实践例如Moonshot AI的Kimi K2YOLO26获得了YOLO系列此前未曾探索的稳定性增强。实验结果表明MuSGD使YOLO26能够用更少的训练轮次达到具备竞争力的精度从而缩短了训练时间并降低了计算成本。此前的YOLO版本包括YOLOv8至YOLOv13依赖标准SGD或AdamW变体。尽管这些优化器有效但它们需要大量的超参数调优有时在高变异性数据集上还会出现收敛不稳定的情况。相比之下MuSGD在保持YOLO轻量化训练理念的同时提升了可靠性。对从业者而言这意味着更短的开发周期、更少的训练重启次数以及在不同部署场景下更可预测的性能表现。通过整合MuSGDYOLO26不仅是一个推理优化的模型同时也成为了一个对研究者和工业从业者都友好的训练架构。PART/5实验及可视化DOTA v1数据集上的定向目标检测OBB性能表5报告了YOLO26在DOTA v1数据集上的定向目标检测性能。随着模型规模增大YOLO26的mAPsubtest/sub指标持续提升extra-large变体在端到端评估下达到了56.7%的mAPsub50-95/sub。尽管定向目标检测任务需要更高的输入分辨率与计算量YOLO26仍保持了高效推理中小模型在GPU上的延迟低于5毫秒。表5的结果表明YOLO26将其面向边缘优化的无NMS设计有效延伸到了旋转目标检测使其非常适合航空影像与遥感应用场景。Ultralytics YOLO26 的实时部署在过去十年中目标检测模型的演进不仅体现在精度的提升上也伴随着部署复杂度的持续增长。早期的检测器如R-CNN及其更快的变体Fast R-CNN、Faster R-CNN虽然实现了出色的检测质量但计算成本高昂需要分多阶段完成区域生成与分类这限制了它们在实时和嵌入式应用中的使用。YOLO系列的出现彻底改变了这一局面它将检测重构为单一回归问题使普通GPU也能实现实时性能。然而随着YOLO系列从YOLOv1发展到YOLOv13精度的提升往往伴随着额外架构组件的引入如分布焦点损失DFL、非极大值抑制NMS等复杂后处理步骤以及越来越庞大的骨干网络这些都为部署带来了阻碍。YOLO26通过精简架构与导出流程直接解决了这一长期存在的挑战从而降低了在各类硬件与软件生态系统中的部署门槛。灵活的导出与集成路径YOLO26的一个关键优势是能够无缝集成到现有的生产流程中。Ultralytics维护着一个持续开发的Python包提供训练、验证与导出的统一支持为从业者采用YOLO26降低了技术门槛。与早期需要大量自定义转换脚本才能实现硬件加速的YOLO模型不同YOLO26原生支持多种导出格式包括用于最大化GPU加速的TensorRT、支持跨平台兼容的ONNX、用于原生iOS集成的CoreML、用于安卓与边缘设备的TFLite以及用于优化英特尔硬件性能的OpenVINO。这些丰富的导出选项使研究人员、工程师和开发者能够从原型开发到生产部署无需再遭遇前代模型常见的兼容性瓶颈。历史上YOLOv3到YOLOv7在导出时往往需要手动干预尤其是在针对NVIDIA TensorRT或Apple CoreML等专用推理引擎时。同样基于Transformer的检测器如DETR及其后续模型在PyTorch环境外转换时由于依赖动态注意力机制也面临诸多挑战。相比之下YOLO26通过移除DFL与采用无NMS预测头简化了架构确保了跨平台兼容性且不牺牲精度。这使YOLO26成为迄今为止最易于部署的检测器之一进一步巩固了其边缘优先的定位。量化与资源受限设备除了导出灵活性实际部署中的真正挑战在于如何在计算资源有限的设备上保证效率。智能手机、无人机和嵌入式视觉系统等边缘设备通常没有独立GPU需要在内存、功耗与延迟之间取得平衡。量化是一种被广泛采用的策略用于减小模型尺寸与计算负载但许多复杂检测器在激进量化下会出现显著的精度下降。YOLO26的设计正是考虑到了这一局限。得益于其精简的架构与简化的边界框回归流程YOLO26在半精度FP16与整数INT8量化方案下均能保持稳定的精度。FP16量化利用原生GPU对混合精度运算的支持实现了更快的推理并减少了内存占用。INT8量化将模型权重压缩为8位整数大幅减小了模型尺寸与能耗同时保持了具备竞争力的精度。基准实验证实YOLO26在这些量化级别下仍能保持稳定性在相同条件下性能优于YOLOv11与YOLOv12。这使YOLO26特别适合部署在NVIDIA Jetson Orin、Qualcomm Snapdragon AI加速器甚至为智能摄像头供电的ARM架构CPU等紧凑硬件上。相比之下基于Transformer的检测器如RT-DETRv3在INT8量化下性能显著下降主要是因为注意力机制对精度降低较为敏感。同样YOLOv12与YOLOv13虽然在GPU服务器上能提供强劲精度但在低功耗设备量化后难以保持竞争力。因此YOLO26为目标检测领域的量化感知设计树立了新标杆证明了架构简洁性可直接转化为部署鲁棒性。跨行业应用从机器人到制造业这些部署增强的实际影响在跨行业应用中得到了最好的体现。在机器人领域实时感知对于导航、操作与安全的人机协作至关重要。通过提供无NMS预测与稳定的低延迟推理YOLO26使机器人系统能够更快速、更可靠地感知环境。例如配备YOLO26的机械臂可以在动态场景下以更高精度识别和抓取物体而移动机器人则能在杂乱空间中获得更好的障碍物识别能力。与YOLOv8或YOLOv11相比YOLO26的推理延迟更低这在高速场景中可能就是安全机动与碰撞的区别。在制造业中YOLO26对自动化缺陷检测与质量保证具有重要意义。传统的人工检测不仅劳动密集还容易出现人为错误。此前的YOLO版本尤其是YOLOv8已部署在智能工厂中但导出的复杂性与NMS带来的延迟开销有时会限制大规模推广。YOLO26通过提供OpenVINO或TensorRT等轻量化部署选项缓解了这些障碍使制造商能够将实时缺陷检测系统直接集成到生产线上。早期基准显示基于YOLO26的缺陷检测流水线比YOLOv12及DEIM等基于Transformer的替代方案具有更高的吞吐量和更低的运营成本。YOLO26部署带来的更广泛启示总体而言YOLO26的部署特性凸显了目标检测演进的一个核心主题架构效率与精度同等重要。在过去五年中从基于卷积的YOLO变体到DETR和RT-DETR等基于Transformer的检测器模型变得越来越复杂但实验室性能与生产就绪性之间的差距往往限制了它们的实际影响。YOLO26通过简化架构、扩展导出兼容性与确保量化鲁棒性弥合了这一差距从而将前沿精度与实际部署需求完美结合。对于开发移动应用的开发者而言YOLO26通过CoreML与TFLite实现了无缝集成确保模型可在iOS与安卓平台上原生运行。对于在云端或本地服务器部署视觉AI的企业TensorRT与ONNX导出提供了可扩展的加速选项。对于工业与边缘用户OpenVINO与INT8量化确保了即使在严格的资源约束下性能依然稳定。从这个意义上说YOLO26不仅是目标检测研究的进步也是部署民主化的重要里程碑。有相关需求的你可以联系我们END转载请联系本公众号获得授权计算机视觉研究院学习群等你加入ABOUT计算机视觉研究院计算机视觉研究院主要涉及深度学习领域主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架提供论文一键下载并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程让大家真正体会摆脱理论的真实场景培养爱动手编程爱动脑思考的习惯往期推荐YOLO-TLA一种基于 YOLOv5 的高效轻量级小目标检测模型ViT-YOLO基于Transformer的用于目标检测的YOLO算法SSMA-YOLO一种轻量级的 YOLO 模型具备增强的特征提取与融合能力适用于无人机航拍的船舶图像检测LUD-YOLO一种用于无人机的新型轻量级目标检测网络Gold-YOLO基于聚合与分配机制的高效目标检测器Drone-YOLO一种有效的无人机图像目标检测「无人机AI」“空中城管”无人机AI光伏巡检自动化解决方案无人机视角下多类别船舶检测及数量统计机场项目解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题2PCNet昼夜无监督域自适应目标检测附原代码YOLO-S小目标检测的轻量级、精确的类YOLO网络大改Yolo框架 | 能源消耗极低的目标检测新框架附论文下载改进的检测算法用于高分辨率光学遥感图像目标检测