佛山网站设计网站公司全国特种作业人员证查询
佛山网站设计网站公司,全国特种作业人员证查询,企业营销网站建设公司哪家好,四川建设工程网01 — Introduction
现有方法通过构建跨模态对齐知识来解决无配对的图像-文本匹配#xff0c;但它们常常未能识别出对应的分布外#xff08;OOD#xff09;词语义对应的视觉表示。此外#xff0c;不同词语对应视觉表现的分布方差显著#xff0c;这对匹配准确性产生负面影…01 — Introduction现有方法通过构建跨模态对齐知识来解决无配对的图像-文本匹配但它们常常未能识别出对应的分布外OOD词语义对应的视觉表示。此外不同词语对应视觉表现的分布方差显著这对匹配准确性产生负面影响。为解决这些问题我们提出了一种新方法——多模态对齐语义知识MASK它利用词嵌入作为桥梁将词语与其对应的原型联系起来从而实现图像与文本模态之间的语义知识对齐。对于 OOD 词代表性的原型是通过利用词嵌入中编码的语义关系构建的。此外我们引入了原型一致性对比学习损失以结构化特征空间有效减轻方差带来的负面影响。Flickr30K 和 MSCOCO 数据集的实验结果表明MASK 在非配对匹配中表现更优。02 — Motivation图 1现有匹配范式与我们提出的无配对框架的比较。由于图像与文本之间信息的异质性和不对称性准确学习跨模态语义对应仍是一个具有挑战性的问题。尽管对大规模成对图像-文本数据的训练显著提高了匹配准确性但在实际场景中大规模收集和注释此类数据往往不切实际。需要注意的是单模态视觉或语言知识已被广泛用于视觉和语言理解任务Chen Zhao2023。还有一些作品Li 等2025;Gao 等人2025直接将这两种知识结合起来但所得知识并非多模态对齐。另一种选择是 Huang 等人2024a的多模态对齐概念知识它建立了典型区域表示与词语之间的对应关系如图 1a所示。然而这些基于知识的方法仍面临以下问题1OOD 词汇尚未被彻底研究。现有的基于知识的方法未能利用底层语义结构将已知词的视觉原型转移到职场词; 2分布方差的影响在很大程度上被忽视了。对应不同词的地区表示表现出显著的外观差异。因此某些与分布均值有显著偏离的实例可能容易被误分为其他词; 3原始区域表示不足以有效捕捉词语间的语义关系。原始区域的代表性主要受区域间共现关系的影响。然而语义相关性与共现模式之间并不存在固有关系。例如虽然“human”和“hat”在视觉语境中常常同时出现但“human”和“gentleman”可能在语义上有更高的相似性。为解决这些问题我们提出了一种新方法——多模态对齐语义知识Multimodal aligned Semantic Knowledge用于无配对的图像-文本匹配该方法建立典型区域表示与词嵌入之间的语义对齐如图 1b所示。03 — Contribution我们提出了一种新型跨模态语义比对方法 MASK通过利用词嵌入之间的内在关系构建 OOD 词的代表性原型从而增强模型在非配对图像文本匹配中的泛化能力。我们引入原型一致性对比学习损失以结构性地正则化特征空间明确鼓励与同一词相关的区域表示与其原型紧密对齐从而减轻分布方差带来的负面影响我们将预训练词向量的外部知识作为辅助监督信号建立了区域表示与词嵌入之间保持关系的等变映射使区域表示能够有效捕捉词语之间的语义关系。04 — Method图 2用于未配对图像-文本匹配的多模态对齐语义知识MASK。上图展示了如何获取这些知识下图展示了如何利用这些知识进行非配对的图像-文本匹配。本节展示了获取无配对图像-文本匹配 MASK 的流程如图 2 所示。对于每个区域图像嵌入分支用于提取具有高内聚性和低耦合的区域表示。对于每个单词采用文本嵌入分支来生成对应的单词嵌入。因此我们得到一个知识集其中每个词都与其对应的典型区域表示对齐。这些知识作为基于知识的图像-文本匹配模块中的桥梁使特定领域的图像与文本能够关联从而支持非配对匹配。值得注意的是这些知识可以被微调以更好地适应特定领域附录 H。然而微调步骤是可选的取决于是否给定某个域中的未配对数据。多模态对齐的语义知识除了语义概念外所研究的知识还具有另一个重要的特性——跨模态一一对齐。对于每个词其语义相关的对象在不同区域中常常表现出不同的视觉表现这在实际作中很容易导致混淆。因此MASK 不是将每个词一对多地对齐到多个相关区域而是将每个词对齐到一个典型的区域目的是缓解出现变化的问题。特别地我们将知识表述为一组语义概念这些概念具有成对的多模态表示{w v},…,K 其中 wand vare 分别是第 k 个语义概念的嵌入词和典型区域表示K 是语义概念的总数。如图 2 所示对于每个词我们使用预训练的词向量计算词嵌入 wk。对于每个区域我们首先通过将边界框和图像输入预训练的物体检测模型 Faster-RCNN提取原始区域表示 rj 1 . . . J。然后我们利用原型感知编码器PAEh 提取区域表示输入为 rj其中 Θ 是 h 的参数σ 表示分布方差。最后我们通过对所有相关区域表示{μ}的平均计算典型区域表示 v其中Jk表示第 k 个语义概念的区域数。2.图像编码分支给定一个由配对区域和词组成的批次 B我们首先得到原始区域表示 R {r}R ∈ R其中 M 是 r 的维数。然后我们利用 P AE 模型 h 提取区域表示μ该模型以 R 为输入由一个全连通FC层和三个自关注层组成其中平均值μ ∈Rand 方差σ ∈稀度通过使用特征恢复模块F RMg包含自关注层和两个 FC 层以保持原始区域表示 R 的信息其中 z 是从标准正态分布中抽样的随机向量Θ 是 g 的参数。Z 代表潜在空间的特征维数。如图 2 所示P AE 模型 h 和 F RM 模型 g 通过信息保持损失函数 L 联合训练其中 D N μ σ ||N 0 1 意味着潜空间中的数据分布逐渐趋近标准正态分布。E[‖r− r‖]衡量重建后的原始区域表示 R 与原始区域表示 R 之间的差值。损失保证了平均值μ保留了大量来自原始区域表示 R 的信息。受聚类理论和对比学习启发我们设计了一个原型一致性对比学习损失以减少原型及其相关区域表示之间分布方差的影响。Lloss 使原型作为类中心最大化区域表示与其对应原型之间的相似性同时最小化与其他原型的相似性从而实现类内聚合和类间分离。与传统的实例对比学习相比Lindos 将原型作为全局语义代表明确将同一类实例围绕其对应原型聚合。这一过程构建了更结构化和更具辨别性的代表空间使模型能够捕捉更清晰的语义边界。Lis 对损失的定义如下附录 G其中μ指的是与典型区域表示 v 相关的区域表示即正的例子。超参数τ调节模型区分负样本的能力。Len 的损失促使所有对应同一词的区域表示彼此更接近同时使不同词的区域表示间距更远有效减轻了不同词之间方差对相似度计算的影响。3.文本编码分支给定一个批次 B包含成对区域和词我们通过利用预训练词向量获得词嵌入 V {w},…,B V ∈ R其中 N 为 w 的维数。预训练词嵌入通常表现出结构良好的语义特性其中语义相关的词被映射到嵌入空间中彼此接近的向量。为了使区域表示能够有效捕捉词语之间的语义相关我们采用了具有三层自注意层和三层 FC 的模态转移模型M T M F这些模型可以将 P AE 模型 h 的平均μ输出映射到词嵌入空间中其中 Θ 是 M T、M 模型 f 和 V 的参数∈R 代表预测的词嵌入。模型 f 是一种保持关系的等变映射为构造对应 OOD 词的典型区域表示奠定了基础。形式上对于任意两个区域表示μ和μ函数 f 应满足附录 B其中距离度量描述了每个模态内表示之间的两对关系。P AE 模型 h 和 M T M 模型 f 使用跨模态比对丢失函数 L附录 C、E 和 F联合训练其中 w w∈ Vi 6 j 和 w∈ V 。损失函数使预测的词嵌入 V 逐渐收敛到嵌入词 V 的同时确保区域表示有效捕捉词语间的语义关系。3.基于知识的图文匹配为了判断给定图像和文本是否匹配我们首先利用上述 Faster-RCNN 得到一组原始区域表示 R {r}R ∈ R以及一组通过 NLTK 实现的分词解析词如图 2 所示。然后我们将知识作为跨模态桥接将所有词汇表示为对应的典型区域表示 U {v}U ∈ R。对于区域集合 R我们利用 P AE 模型 h 提取区域表示μ ∈Rby。最后我们得到给定图像和文本所需的全局相似度分数如下其中ρ·表示最大均值池化作先沿列维度进行最大均值池化然后沿输入矩阵的行维数进行均值池化。然而知识范围本质上有限且高度依赖于公开数据集中可获得的配对数据量。预训练词向量支持的词汇量大小远远超过现有知识的规模。因此对于相对于知识的 OOD 词通常可以通过利用预训练的词向量获得对应的词嵌入。为了充分利用这些 OOD 词汇我们首先从知识中抽取 m 对多模态表示{w v}。然后我们计算 m 个词嵌入 {w} 和词嵌入 w 之间的相似度评分 {s}通过利用抽样的原型区域表示{v}作为基础向量和相似度分数{s}我们可以得到对应词嵌入 w 的典型区域表示 v在非配对图像-文本匹配中基于词语语义相似性构建典型区域表示能够有效利用 OOD 词的信息。为确保为 OOD 词构建的视觉原型的语义质量我们从与 OOD 词最相关的词嵌入知识中选择 top-m 配对多模态表示。这种选择策略的动机是基于语义流形上词嵌入的局部线性性质。语义相关的词在嵌入空间中彼此相近且大致存在于局部线性子空间中。因此topm 邻居为重建相应的视觉表示提供了最有价值的指导。此外L 限制嵌入空间与视觉原型空间的局部对齐使嵌入空间中的最近邻更可能保留原型空间中的几何关系从而减少重建偏差。通过这种方式top-m 邻居有效地捕捉了准确且稳健的原型估计所需的最显著语义和结构信息。为了获得这些面向外词的 top-m 语义邻居我们首先对知识中的所有词嵌入 {w} 进行归一化并将归一化嵌入记为05 — Experiment表 1Flickr30k 和 MSCOCO 数据集中基于模型与基于知识的匹配在未配对图像-文本匹配中的性能比较。区域原型和最大均值池对基于知识的无配对匹配方法有显著影响。然而MASK 始终优于现有方法。这主要是因为 MASK 在区域表示之间表现出强烈的类内凝聚力即任何区域表示与原型区域表示之间的方差相对较小。因此将典型区域表示替换为选择区域表示对整体表现的影响很小。此外纳入词嵌入之间的语义关系可以减少区域表示在词间的耦合。因此用全局平均值替代最大均值池对整体表现影响较小。图 3MACK 和 MASK 中典型区域表示的可视化。每个词表示其由 t-SNE 嵌入的对应典型区域表示。在两个词分布中我们通过使用同色虚线对语义相关的词进行分组。为了定性说明 MACK 和 MASK 之间的主要差异我们在图 3 中可视化了两个低维词分布。四个编号组用不同颜色虚线标记中的词分别涉及动物、交通、人脸和人类。在对应 MACK 的左侧分布中仍有一些相关词语距离较远。相比之下MASK 生成的右侧分布语义更紧凑。其基本机制是词嵌入之间的语义关系在模型训练中被纳入确保相应的原型区域表示也表现出语义关联。这些证据表明MASK 可以使其原型区域表示更具判别性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】