简述跨境电商网站的平台建设上海市杨浦区建设小学网站
简述跨境电商网站的平台建设,上海市杨浦区建设小学网站,兰州网站建设企业名录,江津网站建设2026.2.9本文全面比较了CNN和Transformer在胃肠道内窥镜图像分析中的性能、泛化和鲁棒性#xff0c;涵盖多种任务和训练规模。研究发现#xff0c;Transformer在多数场景下与CNN表现相当#xff0c;尤其在处理细微病变、息肉分割和血管发育不良检测中表现良好#xff0c;证…2026.2.9本文全面比较了CNN和Transformer在胃肠道内窥镜图像分析中的性能、泛化和鲁棒性涵盖多种任务和训练规模。研究发现Transformer在多数场景下与CNN表现相当尤其在处理细微病变、息肉分割和血管发育不良检测中表现良好证实了其作为内窥镜临床实践替代方案的可行性。Title题目01Will Transformers change gastrointestinal endoscopic image analysis? A comparative analysis between CNNs and Transformers, in terms of performance, robustness and generalizationTransformer能否改变胃肠道内窥镜图像分析CNN与Transformer在性能、鲁棒性和泛化能力方面的比较分析文献速递介绍02深度学习尤其是CNNs在医学图像分析领域取得显著进展。Transformer架构作为自然语言处理的创新也开始在计算机视觉领域与CNN竞争。胃肠道内窥镜图像分析是医学领域的新兴方向CADe/CADx工具在此领域潜力巨大但面临图像质量差、病变细微、判读一致性低等挑战。这些问题要求算法具备高性能、鲁棒性和泛化能力。本文旨在全面评估Transformer在胃肠道内窥镜图像分析中的适用性并与CNN进行比较涵盖巴雷特食管肿瘤检测、结肠息肉分割和血管发育不良检测等多种应用。研究还探讨了不同训练集大小的影响并通过严格评估方法如引导抽样、排名稳定性分析和统计检验提供深入见解。Aastract摘要02胃肠道内窥镜图像分析面临诸多挑战如图像质量变化大、异常病变细微且判读一致性低、以及需要实时处理。这些因素对深度学习技术在安全关键应用中的性能、泛化能力、鲁棒性和复杂性提出了严格要求。尽管卷积神经网络CNN一直是内窥镜图像分析的首选架构但Transformer架构在计算机视觉领域的最新成功促使我们重新评估这一结论。为此本研究全面评估并比较了最先进的CNN和Transformer在巴雷特食管肿瘤检测中的临床相关性能、泛化能力和鲁棒性。我们使用了总计10208张图像2079名患者对多种顶级CNN和Transformer模型进行训练和验证并在包括高质量、内部和外部泛化以及鲁棒性测试集在内的总计7118张图像998名患者上进行了测试。为扩大研究范围我们还将性能和鲁棒性比较扩展到结肠息肉分割和血管发育不良检测。结果表明Transformer在各种应用上达到了与CNN相当的性能显示出可比或略有改善的泛化能力并且对常见的图像损坏和扰动具有同等的强大弹性和鲁棒性。这些发现证实了Transformer架构的可行性使其特别适用于内窥镜视频分析的动态特性。Method方法03研究采用了内部和外部数据集包括10208张图像用于巴雷特食管肿瘤检测的训练和验证并扩展到Kvasir-SEG结肠息肉分割和GIANA血管发育不良检测。数据经过预处理包括图像大小调整和像素强度归一化并通过多种数据增强技术如翻转、旋转、对比度调整、模糊、噪声等虚拟增加数据集大小。本文比较了七种深度学习架构包括四种CNNU-Net, U-Net, DeepLabV3, CaraNet和三种TransformerESFPNet, FCBFormer, UperNet并详细描述了它们的骨干网络和复杂度。训练过程根据不同应用采用单步或两步训练并使用Adam优化器、学习率调度和早停策略。性能评估指标包括分类和检测的AUC曲线下面积以及定位的mDi平均Dice分数并采用严格的引导抽样方法计算置信区间和评估模型排名稳定性同时使用Mann-Whitney U检验进行统计分析。Discussion讨论04研究结果表明Transformer在胃肠道内窥镜图像分析中尤其是在巴雷特食管、结肠息肉和血管发育不良检测任务上普遍能够达到与CNN相当甚至略优的性能并在内部域内数据泛化方面表现出统计学上的显著优势。然而在外部域外数据上的泛化能力与CNN相当或略有下降。在处理模拟临床相关图像降级的常见腐蚀和扰动时Transformer展现出与CNN相似的绝对和相对鲁棒性。值得注意的是这些性能和鲁棒性水平在不同训练集大小下均保持一致表明Transformer能够有效利用训练数据。尽管部分实验结果具有统计学意义但由于采样变异性导致的置信区间较宽和排名不确定性以及统计检验对所选模型的依赖性使得得出强而普适的结论仍面临挑战。总体而言Transformer在不要求更大模型规模的情况下在性能、泛化和鲁棒性方面可与CNN媲美为内窥镜临床实践提供了一个有价值的算法替代方案。Conclusion结论05本研究全面评估了CNN和Transformer在胃肠道内窥镜图像分析中的潜力。研究发现Transformer在分类和定位等多种任务上表现出与CNN相当的性能尤其是在处理具有挑战性的细微巴雷特食管肿瘤、结肠息肉分割和血管发育不良检测等场景中。在具有不同病变标准和较低主观图像质量的域内数据上Transformer显示出略微增强的泛化能力而在域外数据上则与CNN相当或略有下降。此外Transformer对模拟临床相关图像降级的常见扰动表现出与CNN同等或略优的鲁棒性。这些趋势在各种训练集大小下均保持一致。尽管在某些实验中达到了统计学显著性但由于模型选择和采样变异性带来的不确定性本文仍谨慎指出Transformer在不要求更大模型规模的情况下在性能、泛化和鲁棒性方面可与CNN媲美使其成为内窥镜临床实践中一个有价值的算法替代方案。Results结果06本研究全面评估了CNN和Transformer在胃肠道内窥镜图像分析中的性能、泛化能力和鲁棒性。在巴雷特食管测试集上Transformer和CNN在分类和定位方面表现相当性能差异不显著且模型复杂度和性能无直接关联。对于Kvasir-SEG结肠息肉分割Transformer同样能达到与CNN可比的性能但无统计学显著优势。在Giana血管发育不良检测任务中Transformer在分类性能上显著优于CNN尽管定位性能差异不明显。在内部泛化测试集QRT和CRT上Transformer在具有不同病变标准和较低主观图像质量的域内数据上表现出显著改善的分类性能。然而在外部泛化测试集ARGOS和BORN上Transformer与CNN表现相当或略有下降。在鲁棒性方面针对巴雷特食管和公共数据集的受损版本Transformer对常见的图像损坏和扰动展现出与CNN相似或略有提升的绝对鲁棒性而相对鲁棒性则相当或略有下降。研究还发现Transformer在不同训练集规模下均能保持与CNN可比的性能、泛化和鲁棒性。Figure图07图1.不同测试集的多样性样本。(a) 巴雷特测试高质量细微肿瘤病例(b) 巴雷特测试-C色调和运动模糊受损(c) 巴雷特测试-C过曝和饱和度受损(d) 巴雷特测试-C过曝、运动模糊、色调和亮度受损(e) Kvasir-SEG结肠息肉(f) Kvasir-SEG-C散焦模糊、对比度、色调和亮度受损(g) Giana血管发育不良病例(h) Giana-C运动模糊、过曝、饱和度、亮度和色调受损(i) ARGOS不同内窥镜制造商的高质量细微肿瘤病例(j) BORN不同内窥镜制造商的低质量图像(k) QRT低质量图像模糊和气泡存在(l) CRT可见异常的非异型增生巴雷特食管病例。图2.胃肠道内窥镜各个应用的实验设置图示。对于每组实验图中指明了实验结果展示和讨论所在的章节编号。图3. 散点图显示了在巴雷特测试集、ARGOS、BORN、QRT、CRT和受损巴雷特测试-C集上平均引导分类性能AUCcls或平均引导定位性能mDi值与参数数量的关系。此外散点图描绘了各数据集清洁版本和受损版本之间平均引导性能下降Δ mDi和Δ AUCcls。使用四种不同数据集表明了网络架构的泛化能力而使用受损数据集则清晰展示了网络架构的鲁棒性。图4.散点图显示了在公开可用的Giana和Kvasir-SEG数据集以及受损的Giana-C和Kvasir-SEG-C集上平均引导分类性能AUCcls或平均引导定位性能mDi值与参数数量的关系。此外散点图描绘了各数据集清洁版本和受损版本之间平均性能引导降级Δ mDi和Δ AUCcls。使用受损数据集清晰展示了各种网络架构的鲁棒性。图5. 斑点图Blob plots显示了基于引导抽样1000个样本在巴雷特测试集、ARGOS、BORN、QRT、CRT和受损巴雷特测试-C集上的分类性能AUCcls和定位性能mDi的排名稳定性以及巴雷特测试集清洁版本和受损版本之间的性能下降Δ AUCcls/Δ mDi。CNN和Transformer以颜色编码并使用表3中指定的代码名称表示每个特定网络架构。每个斑点的面积与该架构达到特定排名的相对频率成比例。每个架构的中位排名由黑色十字表示。跨引导样本的95%引导区间从引导分布的2.5%到97.5%分位数由黑线表示。值得注意的是模型从左到右排序左侧是最佳模型右侧是最差模型由引导样本的平均排名分数决定。y轴上较低的排名表示更好的性能。图6.斑点图Blob plots显示了基于引导抽样1000个样本在Kvasir-SEG、Giana以及受损Kvasir-SEG-C和Giana-C集上的分类性能AUCcls和定位性能mDi的排名稳定性以及各数据集清洁版本和受损版本之间的性能下降Δ AUCcls/Δ mDi。CNN和Transformer以颜色编码并使用表3中指定的代码名称表示每个特定网络架构。每个斑点的面积与该架构达到特定排名的相对频率成比例。每个架构的中位排名由黑色十字表示。跨引导样本的95%引导区间从引导分布的2.5%到97.5%分位数由黑线表示。值得注意的是模型从左到右排序左侧是最佳模型右侧是最差模型由引导样本的平均排名分数决定。y轴上较低的排名表示更好的性能。图7.小提琴图显示了基于1000个引导样本的AUCcls和/或mDi分布分别针对CNN和Transformer架构类型在巴雷特测试集、Kvasir-SEG、Giana、受损巴雷特测试-C、受损Kvasir-SEG-C和受损Giana-C集上。每个小提琴的一半可视化了相应性能指标值的分布并辅以平均值和四分位数范围。图8. 折线图显示了ARGOS、BORN、QRT、CRT、巴雷特测试集和受损巴雷特测试-C集上的平均引导AUCcls和/或mDi值。这些图是巴雷特训练集总数据百分比的函数。此外还展示了巴雷特测试集清洁版本和受损版本之间平均引导性能下降Δ mDi和Δ AUCcls的折线图。折线图补充了指示引导样本95%置信区间的误差带。