低价格网站建设哪个网站找做软件下载
低价格网站建设,哪个网站找做软件下载,石家庄心雨网站建设,中国建设银采购发文网站近日#xff0c;在某机构举办的国际计算机视觉大会上#xff0c;其研究团队提出了一种创新的运动引导掩码算法#xff0c;用于改进视频数据的掩码建模。该算法利用视频编码中已有的运动矢量信息#xff0c;高效地追踪感兴趣区域在连续帧间的运动#xff0c;从而生成更具语…近日在某机构举办的国际计算机视觉大会上其研究团队提出了一种创新的运动引导掩码算法用于改进视频数据的掩码建模。该算法利用视频编码中已有的运动矢量信息高效地追踪感兴趣区域在连续帧间的运动从而生成更具语义一致性的掩码迫使模型学习更鲁棒的视频表征。实验证明该方法仅需之前最佳模型三分之一的数据量即可达到同等性能并在多个下游任务中取得了高达5%的相对性能提升。语义表征的挑战近期的基础模型通过学习重建随机掩码的文本或图像取得了巨大成功能够从无标注数据中学习强大的表征。然而直接将此方法应用于视频数据并非易事。如果掩码是随机的模型可能简单地通过参考相邻帧来填补空缺。另一方面如果在连续帧中对固定区域进行掩码由于相机运动模型可能学会重建背景而非运动的人物或物体。这些“捷径”会降低学习到的表征质量从而影响下游任务的表现。运动引导掩码视频序列中最有意义的元素通常是人物和物体。一个不能随时间跟踪这些语义单元的掩码可能会忽略有用信息并导致学习到的表征包含更多噪声。因此该工作的目标是产生一个能够随时间跟踪这些语义单元的“运动引导”掩码。一种直观的方法是每帧运行目标检测器随机选择一个目标并在每帧中掩码其边界框。但这种方法计算成本极高。幸运的是现代视频压缩方案已经包含了可用于估计帧间运动的信息。该方法直接利用这些信息显著降低了计算负担。利用运动矢量数字视频通常以每秒24到30帧的速度播放。现代视频编解码器利用视频内容通常逐帧渐变的特点进行压缩。编码后的视频由内编码帧、运动矢量定义像素块在帧间的移动和残差数据组成。由于运动矢量通常分配给8x8或16x16像素的块其稀疏性使得编码视频文件的存储效率远高于完全解码的RGB帧。该研究利用了现代视频编解码器的这一设计来获取高效的运动信息。运动矢量以二维方式编码像素块的偏移量。研究团队分析了流行的互联网视频数据集中前景和背景的平均运动发现前景的运动通常更高。因此该算法使用运动矢量作为确定感兴趣掩码区域的代理。运动引导掩码算法会在每帧中运动最高的区域周围掩码一个矩形区域并让模型重建这个被掩码的三维视频块。实验与结果在实验中研究团队将运动引导掩码与六种先前的视频掩码方法进行了比较。所有先前的方法都使用随机掩码这些掩码不具备时空连续性。消融研究也测试了其他具有不同时空连续性和运动引导程度的掩码方案以探究运动引导对提升视频表征学习的作用。结果表明运动引导掩码在两个不同的数据集上均优于所有先前的视频掩码方案。它仅需之前最佳方法三分之一的数据量就能达到其性能水平。随后团队将使用该方法生成的表征与其他随机掩码基线方法在其他三个任务上进行了比较获得了高达5%的相对性能提升。这表明运动引导掩码在捕捉视频内容的语义信息方面优于其他视频掩码技术。总之该研究提出的运动引导掩码算法是一种运动感知的掩码算法它利用了流行视频格式中已有的高效运动信息来指导掩码生成从而有效提升了视频表征学习的效果。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享