成都有实力的网站建设宁波高端定制网站建设
成都有实力的网站建设,宁波高端定制网站建设,黑河网站建设公司,网页美工设计师培训抛蛋训诚核心动机:
主要动机在于增强现有模型的泛化能力。成熟的协同过滤框架在处理用户行为数据方面非常强大#xff0c;但本质上依赖于ID的记忆能力#xff0c;因此在数据稀疏性和物品冷启动问题上存在固有缺陷。引入纯粹基于内容的语义ID#xff0c;可以为模型提供一个不…抛蛋训诚核心动机:主要动机在于增强现有模型的泛化能力。成熟的协同过滤框架在处理用户行为数据方面非常强大但本质上依赖于ID的记忆能力因此在数据稀疏性和物品冷启动问题上存在固有缺陷。引入纯粹基于内容的语义ID可以为模型提供一个不依赖于历史行为的、稳定的物品信息源从而直接缓解这些问题。核心挑战异构空间的对齐该路线的根本挑战源于需要处理两种不同性质的表征空间**行为驱动的协同过滤空间 **构建方式: 此空间基于用户-物品交互矩阵构建。物品的向量表示Embedding是通过优化协同过滤目标学习而来的。空间特性: 物品在此空间中的相对位置完全由用户群体的行为模式决定。两个物品如果经常被同一批用户消费即使内容毫无关系它们的向量也会非常接近。其本质是行为共现性的数学表达。内容驱动的语义表征空间构建方式: 此空间基于物品自身的内容属性如文本、图像构建。物品的表示即语义ID或其对应的向量通过自监督学习如语言模型、对比学习或向量量化模型如RQ-VAE得到。空间特性: 物品在此空间中的相对位置由其内在的语义相似性决定。所有关于“科幻小说”的物品无论其流行度如何它们的表示都会聚集在一起。其本质是内容相似性的数学表达。对齐的必要性: 这两个空间是异构的它们遵循完全不同的组织逻辑。一个物品在协同空间中的近邻与其在语义空间中的近邻可能毫无重叠。因此若想让模型同时从这两种信息中获益就必须解决二者的对齐问题。Alignment即指通过设计特定的模型结构如共享参数、门控网络或损失函数如对比学习、对抗训练在这两个异构空间之间建立起一座桥梁学习一种映射关系或施加约束促使一个统一的物品表示能够同时蕴含行为和内容两种信息。路线二作为核心表征的纯生成式范式此路线是一次范式迁移它不再将语义ID视为辅助而是将其作为系统的核心基石将推荐问题完全形式化为一个序列到序列的生成任务。核心动机:旨在构建一个端到端的、统一的推荐框架。通过将所有物品都表示为一系列离散的语义Token可以借鉴自然语言处理领域中极其成熟的生成模型尤其是Transformer从而绕开路线一中复杂的异构空间对齐问题追求一个理论上更简洁、统一的解决方案。核心挑战表征的离散化与信息保真度此路线将核心挑战从空间对齐前移到了空间构建本身即Tokenization过程Tokenizer的职责: Tokenizer即生成语义ID的量化模型的核心职责是将连续、高维的原始物品特征空间离散化为一个有限的、结构化的语义Token集合。问题的根源: 这个离散化过程是有损压缩必然面临信息保真度的挑战。一个设计不佳的Tokenizer可能会导致两种关键问题语义模糊将多个内容上有显著差异的独立物品错误地映射到了同一个或过于接近的语义ID上导致下游模型无法区分。信息丢失无法在离散的ID中保留某些对推荐至关重要的细粒度特征导致模型表达能力受限。挑战的本质整个系统的性能上限被Tokenizer所能实现的表征保真度牢牢限制。因此如何设计出能够最大限度保留关键信息、同时形成良好结构以供下游模型学习的Tokenizer是该路线成功的关键。转向生成式范式的核心驱动因素尽管纯生成式路线面临显著的技术挑战,但其之所以成为前沿研究方向,源于两个结构性优势:架构优势对复杂序列依赖的深度建模原因: Transformer架构能够极其有效地捕捉用户行为序列中的长距离依赖和高阶项目关系。它不仅能看到“A-B”更能理解“在A和D的上下文中B-C”的复杂模式。影响: 这种强大的序列建模能力与生成式范式完美契合可以直接转化为推荐性能的提升尤其是在理解用户动态、多变的会话意图方面。数据利用效率高信息密度的训练范式原因: 传统推荐模型多采用Pointwise或Pairwise的训练目标每个训练样本仅包含有限的监督信号。影响: 生成式模型天然采用自回归的序列级训练目标每个训练样本一个用户行为序列都包含了丰富的物品上下文和多组共现关系。这种信息密度更高的训练方式使得模型能够更高效地从数据中学习提升了样本利用率。以上是我对目前语义id的认识和梳理下面我们归回到本次要分享的论文它属于是将语义id作为增强特征来处理在推荐系统的广袤世界里物品IDItem ID如同每个物品的“身份证”是模型识别与记忆它们的基础。长期以来我们习惯于使用随机哈希ID (Randomly-hashed IDs)这种方法凭借其高效的记忆能力在工业界大规模排序系统中占据着主导地位。然而这种“死记硬背”的方式也带来了明显的弊端模型对新出现的、缺乏交互的长尾物品束手无策因为这些随机ID本身不携带任何语义信息无法帮助模型进行泛化推理。如何在不牺牲现有模型强大记忆能力的前提下赋予其理解内容、泛化未来的能力Google 在论文《Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations》中给出了一条极具工程价值的路径。本文将深入解析这一方法探讨其如何在YouTube的生产环境中为推荐排序模型构建一座连接记忆与泛化的桥梁。一、 背景推荐系统中ID表示的困境在深入语义ID之前我们必须清晰地认识到传统ID表示法面临的根本矛盾。随机哈希ID的记忆优势 工业级推荐系统通常拥有一个庞大的嵌入表Embedding Table通过随机哈希将海量的物品ID映射到表中的某一行。模型在训练中不断优化这些嵌入向量从而能精准地“记住”每个热门物品的特性例如点击率、用户偏好等。这是其强大性能的基础。随机哈希ID的泛化劣势 这种优势的代价是牺牲了泛化能力。语义鸿沟 两个内容上高度相似的视频例如都关于“深度学习入门”它们的随机ID毫无关联模型无法将从一个视频上学到的知识迁移到另一个造成了巨大的信息浪费。冷启动困境 对于一个新发布的视频由于缺乏用户交互数据其ID嵌入无法得到有效训练导致模型无法准确预估其表现难以将其推荐给合适的用户。现有方案的不足 为了解决泛化问题研究者们尝试了多种方案。纯内容嵌入 (Dense Content Embedding) 直接使用从视频内容画面、音频、文本中提取的稠密向量作为特征。这种方法泛化能力很强但论文实验发现它完全替代ID后会导致模型整体性能下降因为它损失了ID所提供的强大记忆能力。端到端内容模型 将内容编码器与推荐模型一起进行端到端训练。虽然效果显著但其巨大的计算成本通常是ID基线的10-50倍使其难以在对延迟和成本极其敏感的大规模生产排序系统中部署。面对这一困境我们需要一种既能保留ID式记忆能力又能融入内容语义进行泛化的新范式。二、 核心方法语义ID的生成与应用语义ID的核心思想是通过一个两阶段流程将物品的内容信息提炼并固化成一种新型的、离散化的ID。这篇论文语义Id的生成也是用的tiger论文提出的RQVAE方法只不过这里是将语义Id用于排序阶段将语义Id作为增强特征与其他特征进行拼接后送入传统的排序模型。而tiger则是针对召回阶段系统训练一个 Transformer Seq2Seq 模型编码器输入用户历史交互物品的语义 ID 序列解码器自回归地预测目标物品的语义 ID 序列。第一阶段语义ID的生成image此阶段的目标是将高维、连续的内容嵌入高效地压缩为低维、离散的ID序列同时保留其核心语义。内容嵌入的获取内容嵌入的获取依赖预训练多模态编码器对原始特征的编码。以 YouTube 视频为例系统首先收集标题、描述、标签、字幕等文本信息以及视频帧和音频等多模态数据。这些原始内容通过预训练模型如 SentenceT5 或 CLIP 类模型编码为高维稠密向量 x∈R^D该向量捕获了视频的核心语义信息。核心组件 (RQ-VAE) 论文采用残差量化变分自编码器 (RQ-VAE) 来完成此任务。其工作流程可以通俗地理解为一种“逐层精炼”的量化过程编码 首先一个编码器将原始的内容嵌入向量 x 映射到一个潜在向量 z。多层残差量化 这是RQ-VAE的关键。在第一层模型在码本Codebook中寻找与 z 最相似的编码向量记录下其ID并计算出两者之差即残差 (Residual)。在第二层模型不再对原始向量进行量化而是对第一层的残差进行量化再次记录ID并计算新残差。循环往复 这个过程会持续L层每一层都是对上一层留下的“剩余信息”即残差进行精细化捕捉。输出 最终一个物品得到了一个由L个整数组成的ID序列如 (1723, 541, 1129, ...)。这个序列具有分层语义ID的前缀部分代表了物品最广泛、最粗略的概念如“体育”而后续的ID则不断在细节上进行补充和限定如“户外运动”-“沙滩排球”。第二阶段在排序模型中适配语义ID生成了语义ID后如何让排序模型理解并使用它论文提出可以将这个定长的ID序列视为一个“句子”通过类似自然语言处理中的“分词”思想来处理。核心思想 将SID序列分解为“子词(subwords)”为每个子词学习一个嵌入向量最后将这些子词的嵌入组合起来形成最终的物品表示。方法1基于N-gram的表示法原理 采用固定长度的滑窗来切分SID序列。例如Unigram (N1) 将每个ID都视为一个独立的子词Bigram (N2) 则将每两个相邻的ID组合成一个子词。优劣分析 这种方法简单直观但其主要缺陷在于灵活性差。更重要的是嵌入表的规模会随着N的增大呈指数级增长这极大地限制了其捕捉更长、更复杂语义组合的能力。方法2基于SPM的表示法 (SentencePiece Model)原理 借鉴NLP中广泛应用的SentencePiece模型该方法不再使用固定的N而是根据ID组合在训练数据中出现的频率动态地、自适应地学习最优的子词切分方案。那些频繁共现的ID组合如代表某个热门主题的ID序列会被自动合并成一个更长的子词而稀有的ID则可能保持为单个的子词。优势 SPM能够在给定的嵌入表预算内智能地分配其“记忆容量”。它用更长的子词去“记忆”重要且常见的语义模式用更短的子词去“泛化”不常见的组合从而在记忆和泛化之间取得了更优的平衡。N 大和 N 小的好处与核心思想N-gram 长度的选择体现了泛化能力 和 记忆能力之间的权衡。特性较小如Unigram较大如组合长度 短1 个编码 长多个编码嵌入表开销 小的倍数内存高效。 大爆炸式增长资源消耗高。语义粒度 粗糙。只捕获单个层级的语义。 精细。捕获多个层级编码的联合语义。泛化能力 强。项目更容易共享短片段的嵌入例如知识共享多。 弱。只有极其相似或相同的项目才会共享长片段的嵌入泛化能力差。记忆能力 弱。无法为热门项目的特定组合学习独特的嵌入记忆细粒度偏差的能力不足。 强。为热门 SID 的长片段组合学习了独特的嵌入能够精确记忆该项目的独有特征。核心思想 提升泛化能力。 牺牲对单个项目的精确记忆换取对新/长尾项目的语义迁移。 提升记忆能力。 牺牲泛化能力换取对热门/核心项目的精确拟合。三、 实验分析语义ID的性能表现论文在YouTube的生产级多任务排序模型上进行了详尽的实验结果有力地证明了语义ID的有效性。imageimage实验设置模型 真实的YouTube视频推荐排序模型。基线 传统的随机哈希 (Random Hashing) 和直接使用纯内容嵌入 (Dense Input)。评估指标 整体CTR AUC衡量模型在所有视频上的总体排序能力和CTR/1D AUC仅衡量模型对24小时内新发布视频的排序能力即冷启动性能。核心结论语义ID vs. 纯内容嵌入 实验验证了前文的观点直接使用Dense Input替代ID会导致整体性能CTR AUC的显著下降因为它破坏了模型长期依赖的记忆能力。语义ID vs. 随机哈希 这是最关键的对比。在冷启动场景 (CTR/1D AUC)下无论是N-gram还是SPM-SID其表现都远超随机哈希基线。这表明语义ID凭借其内容理解能力极大地提升了模型对新视频的泛化预测能力。在整体性能 (CTR AUC)上当使用足够大的嵌入表时SPM-SID的表现能够持平甚至超越随机哈希基线。这证明了语义ID可以在不牺牲甚至提升模型整体记忆和排序能力的前提下带来额外的泛化增益。SPM-SID vs. N-gram-SID 在嵌入表规模较大时SPM凭借其自适应的“分词”能力在整体性能和冷启动性能上均优于固定的N-gram方法展现了更强的效率和扩展性。四、 总结与思考《Better Generalization with Semantic IDs》这篇论文为推荐系统领域贡献了一个极具价值的范式。总结 利用 RQ-VAE从固定的内容嵌入中为数十亿YouTube视频开发了 语义IDSemantic IDs以捕获整个语料库中具有语义意义的分层结构。我们提出并证明语义ID是一种有效的方法能够通过引入有意义的碰撞来取代视频ID从而提高泛化能力。优缺点分析优点有效解决冷启动 显著提升对新物品和长尾物品的推荐效果。资源高效 相比直接使用高维内容嵌入语义ID几个整数的存储和查询成本极低。可解释性更强 分层的ID结构使得分析和理解物品间的语义层级关系成为可能。缺点实现复杂度更高 相比即插即用的随机哈希引入语义ID需要额外的RQ-VAE模型训练、ID生成和特征适配流程。工业启示 对于希望提升模型内容理解和泛化能力的大规模推荐系统而言语义ID提供了一条工程上可行且效果显著的演进路径。它并非要求推倒重来而是可以在现有成熟的排序模型架构上通过“特征升级”的方式平滑地引入这对于追求稳定迭代的工业界系统具有极大的吸引力。附录A.1 RQ-VAE 训练与服务设置模型超参数对于 RQ-VAE 模型我们使用一个维度为 256 的单层编码器-解码器模型。我们应用 L 8 层量化每层使用码本大小 K 2048。RQ-VAE 训练我们在一个随机抽样的曝光视频数据集上训练 RQ-VAE 模型直至重建损失趋于稳定对于我们语料库约需数千万训练步数。向量量化技术在训练过程中已知会遭遇码本坍塌问题即模型仅使用一小部分码本向量。为应对这一挑战我们在每个训练步骤中将未使用的码本向量重置为从当前批次内随机采样视频的内容嵌入这显著提高了码本利用率。我们使用 β 0.25 来计算训练损失。模型训练完成后我们冻结 RQ-VAE 模型并使用其编码器为视频生成语义 ID。RQ-VAE 服务/推理当有新视频加入语料库时我们使用冻结的 RQ-VAE 模型生成其语义 ID。随后这些语义 ID 会与其他用于排序的特征一样被存储并提供服务。A.2 语义ID随时间推移的稳定性image研究目的验证语义ID是否稳定即当底层生成模型RQ-VAE随着新数据更新后先前生成的语义ID是否仍然有效。实验方法使用相隔6个月的数据训练了两个RQ-VAE模型v0和v1并用它们分别为视频生成语义ID。然后在同一个最新的生产排名模型上比较这两组ID的性能。核心发现如图5所示使用旧模型RQ-VAEv0和新模型RQ-VAEv1生成的语义ID其下游排名模型性能相当。结论这表明通过RQ-VAE学习到的视频语义标识空间是稳定的不会随时间推移而迅速过时满足生产系统对特征一致性的要求。A.3 作为概念层次结构的语义ID核心观点语义ID天然地捕获了视频内容的层次化概念结构。形象比喻可以将语义ID视为一棵前缀树Trie其中高层级ID序列的前几位代表粗粒度的概念如“体育”。低层级ID序列的后几位代表细粒度的概念如“沙滩排球教学”。实例证明论文中的图6和图7展示了从训练好的模型中提取的两个示例子树分别对应于“体育”和“美食视频”领域直观地显示了这种从一般到具体的概念层级关系。A.4 基于语义ID的相似性分析image研究目的定量分析语义ID的层级结构是否与内容本身的语义相似度相符。实验方法计算所有共享前n位语义ID前缀的视频在原始内容嵌入空间中的平均余弦相似度并统计对应的子树大小。关键发现如表1所示随着共享前缀长度n的增加视频间的平均内容相似度显著提高。同时对应的子树大小即共享该前缀的视频数量急剧减少。结论这定量地证明了语义ID的前缀确实代表了越来越精细和具体的语义概念。前缀越长所标识的视频集合在内容上越相似、越具体。