iis 设置网站不能访问,中国商标网官网首页,网站建站公司多少钱,郑州职业技术学院Kumi02_项目运行 记录Kumi项目的本地运行和向量数据库相关的概念补充 文章目录 Kumi02_项目运行1-参考网址2-Kumi项目运行代码解析3-向量数据库中 dense vector是一个什么概念#xff1f;1-什么是 Dense Vector#xff1f;核心特征与 Sparse Vector 对比 2-在向量数据库中的应…Kumi02_项目运行记录Kumi项目的本地运行和向量数据库相关的概念补充文章目录Kumi02_项目运行1-参考网址2-Kumi项目运行代码解析3-向量数据库中 dense vector是一个什么概念1-什么是 Dense Vector核心特征与 Sparse Vector 对比2-在向量数据库中的应用1. **语义搜索**2. **相似度计算**3. **近似最近邻搜索 (ANN)**3-为什么 Dense Vector 如此重要典型使用场景主流嵌入模型示例4-Qwen3-VL-Embedding-2B 和Qwen3-Embedding-2B 区别核心区别详细说明选型建议5-VL代表什么意思命名规律为什么叫 Vision-LanguageVL 模型的典型架构6-VL-Embedding底层是怎么做的核心架构三模块深度协同关键机制详解1. Vision Encoder真正看懂图片2. 深度融合不是拼接是统一空间3. DeepStack多层信息保留对比VL-Embedding vs OCR文本为什么不是 OCR7-那我可以理解世界模型的最终形态也是【深度融合】融合方式 演进路径从拼接到原生统一世界模型的深度融合特征1. **统一 Token 空间**最核心2. **生成与理解的统一**3. **时空一致性建模**为什么必须是深度融合技术实现两种主流路线路线一自回归统一Autoregressive Unification路线二扩散统一Diffusion Unification路线三混合架构自回归 扩散终极形态预测1-参考网址原作者B站视频介绍https://www.bilibili.com/video/BV1MBn1z2Emi原作者代码仓库https://github.com/RwandanMtGorilla/Kumi个人改造版Gitee项目代码https://gitee.com/enzoism/KumiGitee拆解Yaml评测代码https://gitee.com/enzoism/kumi_eval_yaml2-Kumi项目运行代码解析当前演示是基于我个人改造后的项目进行说明后续分支可能会变更但是整体逻辑不变gitclone https://gitee.com/enzoism/Kumi.git-benzov3_evaluation_threadKumi代码运行-配置改动点# LLM配置-用于大模型评测部分OPENAI_API_KEYsk-XXXXXXXXXXXXXOPENAI_BASE_URLhttps://api.siliconflow.cn/v1# LLM配置-模型配置DEFAULT_LLM_PROVIDERopenaiDEFAULT_MODELmoonshotai/Kimi-K2-ThinkingDEFAULT_TEMPERATURE0.5DEFAULT_MAX_TOKENS1000项目运行-先运行chromaDB-再运行该Kumi项目chromDB使用可以参考系列博客https://blog.csdn.net/2301_77717148/category_13114802.html# 1-ChromeDB启动-默认端口8000chroma run chroma run--port8000# 2-运行Kumi项目-UV进行项目管理uvsyncuv run scripts/start_dev.pykumi界面展示如下3-向量数据库中 dense vector是一个什么概念在向量数据库中Dense Vector稠密向量是一个核心概念我来为你详细解释1-什么是 Dense VectorDense Vector是指维度固定、每个位置都有具体数值的向量表示。与之相对的是Sparse Vector稀疏向量。核心特征特征说明维度固定通常是几百到几千维如 768维、1024维、1536维数值连续每个维度都是浮点数没有零值或很少为零语义丰富通过神经网络如 BERT、GPT、CLIP生成捕获深层语义固定长度所有向量长度相同便于存储和计算与 Sparse Vector 对比Dense Vector (768维): [0.023, -0.156, 0.089, 0.234, -0.067, ...] ← 每个位置都有值 Sparse Vector (数万维): {(第12维): 0.5, (第893维): 0.8, (第5002维): 0.3} ← 大部分为零只存非零项2-在向量数据库中的应用1.语义搜索# 将文本转为 Dense Vectortext向量数据库的工作原理vectorembedding_model.encode(text)# 结果: [0.1, -0.2, 0.05, ...] (768维浮点数)2.相似度计算使用余弦相似度或欧氏距离比较向量间的语义接近程度similaritycosine_similarity(query_vector,doc_vector)3.近似最近邻搜索 (ANN)向量数据库如 Milvus、Pinecone、Weaviate使用HNSW、IVF等索引算法在海量 Dense Vector 中快速找到最相似的向量。3-为什么 Dense Vector 如此重要优势说明语义理解能捕捉国王-男人女人≈女王这样的语义关系跨模态对齐文本、图像、音频可映射到同一向量空间高效检索固定维度适合 GPU 加速和索引优化端到端学习嵌入模型可针对特定任务微调典型使用场景语义搜索理解查询意图而非关键词匹配RAG 系统为大模型检索相关知识片段️以图搜图图像相似度检索推荐系统用户和物品的向量匹配主流嵌入模型示例模型维度用途OpenAItext-embedding-3-small1536通用文本BGE-large-zh1024中文文本CLIP512图文跨模态E5-mistral-7b-instruct4096指令跟随一句话总结Dense Vector 是用固定长度的连续数值向量将文本、图像等非结构化数据的语义信息压缩编码使计算机能够进行高效的相似度比较和检索。它是现代向量数据库和 AI 应用的基础设施。4-Qwen3-VL-Embedding-2B 和Qwen3-Embedding-2B 区别根据搜索结果这两个模型的核心区别在于模态支持能力核心区别特性Qwen3-VL-Embedding-2BQwen3-Embedding-2B模态支持多模态文本、图片、视频、视觉文档、混合模态纯文本架构基础基于 Qwen3-VL 视觉语言架构基于 Qwen3 纯文本架构输入类型支持文本、图像、截图、视频及任意组合如 textimage仅支持文本输入应用场景多模态 RAG、跨模态检索以文搜图、以文搜视频等纯文本检索、语义搜索向量维度2048支持 MRL 动态裁剪至 64-2048未在结果中明确提及但通常为标准文本 embedding 维度详细说明Qwen3-VL-Embedding-2B是专为多模态场景设计的向量模型能够将文本、图片、视频、视觉文档统一编码为稠密向量支持跨模态检索如用文本搜索相关图片或视频在多模态基准 MMEB-V2 上达到 SOTA 性能支持指令感知Instruction-aware可根据不同任务定制输入指令Qwen3-Embedding-2B注意搜索结果中未直接找到该具体型号的详细资料但从命名规律看属于 Qwen3-Embedding 系列该系列有 0.6B、4B、8B 等规格专注于纯文本 embedding在 MTEB 多语言基准上测试适用于传统文本检索、语义相似度计算等场景选型建议需要处理图片、视频、PDF 截图等多模态内容→ 选择Qwen3-VL-Embedding-2B仅需处理文本数据→ 选择Qwen3-Embedding-2B或同系列其他规格构建多模态 RAG 系统→ 使用 Qwen3-VL-Embedding-2B 做召回配合 Qwen3-VL-Reranker 做精排值得注意的是Qwen3-VL-Embedding-2B 在纯文本任务上也有不错表现MTEB 得分 63.87但相比专门的文本 embedding 模型如 Qwen3-Embedding-8B 的 70.58 分仍有一定差距 。5-VL代表什么意思VL代表Vision-Language视觉-语言。这是一个在人工智能领域广泛使用的术语指能够同时理解和处理**视觉信息图像、视频与语言信息文本**的多模态模型架构。命名规律在 Qwen 系列中命名清晰地反映了模型的能力范围命名含义能力范围Qwen3纯文本大语言模型仅文本Qwen3-VL视觉-语言模型文本 图像 视频Qwen3-Audio音频-语言模型文本 音频Qwen3-Omni全模态模型文本 图像 视频 音频为什么叫 Vision-LanguageVision视觉指模型的视觉编码器Vision Encoder通常基于 ViTVision Transformer架构负责将图像/视频像素转换为特征向量Language语言指模型的语言理解与生成功能基于 Transformer 架构处理文本VL 模型的典型架构图像/视频输入 → [Vision Encoder] → 视觉特征 ↓ 文本输入 → [Text Tokenizer] → 文本特征 → [统一融合层] → 联合理解/生成这种架构让模型能够实现以文搜图用文本描述找到匹配的图片以图生文看图说话、图像描述图文问答根据图片内容回答文本问题视频理解分析视频内容并回答相关问题所以Qwen3-VL-Embedding-2B本质上是一个能看懂图片和视频的文本向量化模型而Qwen3-Embedding-2B只能处理纯文本。6-VL-Embedding底层是怎么做的所谓的VL-Embedding底层是怎么做的是不是先把图片中的文本内容解析出来然后作为文本描述补充到原始文本中再进行embedding不是的VL-Embedding 并不是先把图片中的文本解析出来再拼接。它采用的是真正的多模态融合架构能够直接理解图像的视觉内容而不仅仅是其中的文字。让我搜索更多关于 Qwen3-VL-Embedding 底层架构的技术细节非常好的问题VL-Embedding 绝对不是简单的图片转文字再拼接而是采用真正的多模态神经网络架构能够直接理解图像的视觉内容。核心架构三模块深度协同Qwen3-VL-Embedding 的底层架构包含三个核心模块 ┌─────────────────────────────────────────────────────────┐ │ 输入层 │ │ 文本 Token 图像像素 (RGB) │ └─────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────┐ │ 文本分支 │ 视觉分支 │ │ (Text Encoder) │ (Vision Encoder) │ │ - Transformer │ - ViT (Vision Transformer) │ │ - 处理语义 │ - SigLIP2 架构 │ │ │ - 切分 Patch │ │ │ - 2D RoPE 位置编码 │ └─────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────┐ │ Merger (融合层) │ │ - MLP 投影器 │ │ - 将视觉特征映射到语言空间 │ │ - DeepStack 多层注入 │ └─────────────────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────┐ │ LLM 统一处理层 │ │ - 文本 Token 和视觉 Token 混合输入 │ │ - 深度自注意力交互 (Deep Interaction) │ │ - 统一向量空间输出 │ └─────────────────────────────────────────────────────────┘ ↓ 最终 Embedding 向量关键机制详解1. Vision Encoder真正看懂图片不是 OCR视觉编码器采用ViT (Vision Transformer)架构 图像切分将图片切分为 14×14 像素的 Patch图块特征提取每个 Patch 通过 Transformer 自注意力机制提取视觉特征层次化理解从低层边缘、颜色、纹理到高层物体、场景、关系例如模型看到红色按钮在左上角时直接理解空间位置和视觉属性而不是先转成文字描述。2. 深度融合不是拼接是统一空间关键区别在于融合方式方式传统做法VL-Embedding 做法浅层融合图文分别编码→向量拼接❌深度融合视觉 Token 直接注入 LLM→统一自注意力计算✅具体流程图像经过 ViT 生成视觉 Token 序列V { v 1 , . . . , v N } V \{v_1, ..., v_N\}V{v1​,...,vN​}文本经过 Tokenizer 生成文本 Token 序列T { t 1 , . . . , t M } T \{t_1, ..., t_M\}T{t1​,...,tM​}视觉-文本融合通过 Cross-Attention 和投影层将V VV映射到语言模型空间统一表示融合后的多模态隐藏状态H m m H_{mm}Hmm​同时包含视觉和语义信息3. DeepStack多层信息保留Qwen3-VL 引入DeepStack技术 传统方法只在 LLM 的某一层注入视觉特征DeepStack在LLM 的多层同时注入ViT 不同层的特征效果保留从细节低层到语义高层的完整视觉信息对比VL-Embedding vs “OCR文本”能力OCR文本拼接VL-Embedding理解方式先转文字丢失视觉信息直接理解像素级特征空间关系难以保留如左上角天然理解 2D/3D 位置非文本元素无法处理如图表、公式直接编码视觉结构排版信息丢失字体、颜色、布局完整保留跨模态检索弱只能文本匹配强图文互搜实际案例查询“红色曲线在第三季度下降”OCR 方案只能匹配文字下降、“第三季度”VL-Embedding能直接匹配图表中红色曲线的视觉特征与文本描述的语义为什么不是 OCROCR 有信息损失只能提取文字丢失颜色、布局、形状、空间关系VL 是端到端学习视觉特征直接与语义空间对齐无需中间转换统一向量空间文本和图像映射到同一语义空间支持真正的跨模态相似度计算总结VL-Embedding 的理解更接近人类的视觉感知——你看到一个界面截图不需要把每个元素都念出来才能理解它的功能和布局而是直接看懂。这就是多模态融合架构的核心优势。7-那我可以理解世界模型的最终形态也是【深度融合】融合方式 这是一个非常有洞察力的推测是的世界模型World Model的最终形态确实极大概率是【深度融合】架构而且会比当前的多模态模型更加彻底和统一。让我搜索关于世界模型架构的最新研究进展来验证这个判断非常好的判断是的世界模型的最终形态必然是【深度融合】而且是比当前多模态模型更彻底、更原生的统一架构。从搜索结果来看这个趋势已经非常明确演进路径从拼接到原生统一多模态架构的发展清晰地展示了这一趋势 2022-2023: 外部专家集成Visual ChatGPT, HuggingGPT ↓ 模态割裂延迟高 2023-2024: 模块化联合建模CLIP对齐 LLM ↓ 浅层交互信息损失 2024-2025: 端到端统一建模Chameleon, Janus, Qwen3-Omni ↓ 早期融合但仍有优化空间 2025: 原生全模态世界模型Emu3, Sora, NEO ↓ 终极目标单一模型、统一空间、无缝生成与理解世界模型的深度融合特征1.统一 Token 空间最核心不同于 VL-Embedding 只是将视觉特征映射到语言空间世界模型追求所有模态在底层就共享同一表征空间Emu3的做法训练统一视觉 Tokenizer将图像、视频、文本全部转为离散 Token用同一个 Transformer 做 Next-Token PredictionSora的做法将视频压缩为时空 PatchSpacetime Patches作为 Transformer 的统一输入关键区别不是视觉→语言的单向映射而是视觉、语言、动作在同一语义空间中相互转换。2.生成与理解的统一当前 VL-Embedding 只能做理解编码成向量而世界模型必须同时做生成从向量解码出未来状态世界模型的核心能力 当前状态图文 → [统一编码] → 潜在状态向量 → [统一解码] → 未来状态预测视频/轨迹这要求模型具备双向能力既能压缩理解又能展开生成且在同一参数空间内完成。3.时空一致性建模世界模型必须理解物理世界的动态规律VDT (Video Diffusion Transformer)通过统一时空掩码建模让 Transformer 学习物理规律如抛物线运动、碰撞反弹UniVLA将视觉-语言-动作统一为时序交错的 Token 序列实现看→理解→预测→行动的原生统一为什么必须是深度融合浅层/拼接方案深度融合方案各模态独立编码信息在接口处损失底层共享参数信息无损流动难以处理模态间的复杂交互如听到刹车声→看到红灯→预测停车时空-语义联合建模自然处理跨模态因果生成和理解分离如 LLM 理解 Diffusion 生成统一架构同时支持理解、预测、生成无法模拟物理世界动态内在学习世界演化规律技术实现两种主流路线路线一自回归统一Autoregressive Unification代表Emu3, NEO, Qwen3-Omni文本 Token 图像 Token 视频 Token 动作 Token ↓ 单一 Transformer ↓ Next-Token Prediction无论模态优势架构简洁与 LLM 范式天然对齐可扩展性强关键需要高质量的分词器Tokenizer将连续信号图像、视频离散化路线二扩散统一Diffusion Unification代表Sora, VDT, W.A.L.T噪声 Patch → 逐步去噪 → 清晰视频/图像 ↑ 条件文本描述 / 初始帧 / 动作指令优势生成质量高更适合高维连续数据视频演进Diffusion Transformer (DiT) 将扩散过程与 Transformer 结合实现可扩展性路线三混合架构自回归 扩散代表UniVLA, Transfusion, Show-o理解用自回归 Transformer 处理离散 Token高效、擅长推理生成用扩散模型处理连续信号高质量、适合像素/轨迹生成统一在同一框架内通过 MoE (专家混合) 或分层设计实现协作终极形态预测基于当前趋势世界模型的最终架构可能是┌─────────────────────────────────────────────┐ │ 统一多模态分词器 │ │ 文本/图像/视频/音频/动作 → 统一 Token │ └─────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 原生多模态 Transformer │ │ - 早期融合所有模态在输入层即混合 │ │ - 深度交互自注意力跨模态计算 │ │ - 时空建模内置物理规律学习 │ │ - 双向能力理解编码 生成解码 │ └─────────────────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────┐ │ 统一输出预测未来状态 │ │ 文本回答 / 生成视频 / 预测轨迹 / 执行动作 │ └─────────────────────────────────────────────┘关键特征单一模型不再区分理解模型和生成模型统一空间所有模态在共享的潜在空间中表征物理一致性内在学习世界因果律而非表面统计关联端到端可训练从感知到行动的全链路梯度优化正如 Emu3 论文所述这种Next-X Prediction预测下一个 Token/Patch/状态的范式可能是通向通用世界模型的最可行路径 。而 Qwen3-Omni 提出的模态内生Native Omni-Modal理念也指向同一方向不是拼接而是原生统一。