网站搭建技术要求,pageadmin源码,抖音小程序赚钱,潍坊网站建设公司哪家好一、什么是矢量量化#xff1f;矢量量化#xff08;Vector Quantization#xff0c;简称VQ#xff09;是一种把一组数据#xff08;矢量#xff09;作为一个整体进行量化的压缩方法。核心思想太巧妙了#xff1a;不单独处理每个数#xff0c;而是把一群数当成一个"…一、什么是矢量量化矢量量化Vector Quantization简称VQ是一种把一组数据矢量作为一个整体进行量化的压缩方法。核心思想太巧妙了不单独处理每个数而是把一群数当成一个块用模板来代替就像这样原始数据[15, 16, 15, 14]4个像素码本中找最像的模板[15, 15, 15, 15]索引#42传输只需要传42这个索引号二、为什么要用矢量量化标量量化的局限传统方法标量量化是一个个数单独处理像素值15 16 15 14 量化后15 16 15 14还是4个数矢量量化的优势矢量量化是把一组数一起处理把这4个像素看成一个块 从码本中找到最接近的模板 只需要存模板的编号 4个数 → 1个索引巨大压缩三、矢量量化的核心概念1. 矢量Vector把一组数据放在一起形成一个矢量一维连续几个语音采样二维图像的一个小块如4×4像素三维视频的一个小立方体2. 码本Codebook预先训练好的模板库包含K个典型矢量码本 { 第1个模板: [10,10,10,10] 平坦区域 第2个模板: [10,20,10,20] 纹理区域 第3个模板: [0,0,0,255] 边缘区域 ... 第N个模板: [x1,x2,x3,x4] }3. 索引Index每个模板的编号用log₂K个比特表示码本大小K256 → 每个索引8比特原来4个像素×8比特32比特压缩后8比特 → 压缩率75%四、矢量量化工作原理编码过程压缩原始数据流 ──→ 分矢量 ──→ 在码本中找最近模板 ──→ 输出索引 [大量数据] [块1] ↓ [索引1] [块2] [计算距离] [索引2] [块3] (欧氏距离/绝对值) [索引3]解码过程解压收到索引 ──→ 查码本 ──→ 取出模板 ──→ 重建数据 [索引1] ↓ [模板1] [块1] [索引2] [码本] [模板2] [块2] [索引3] [模板3] [块3]五、如何构建码本码本构建是矢量量化的核心最常用的是LBG算法Linde-Buzo-GrayLBG算法步骤第1步初始化 选择一个初始码本可随机选或用分裂法 第2步迭代优化 ┌─────────────────────────────────────┐ │ 重复直到收敛 │ │ 1. 分配把所有训练矢量分到最近的码字 │ │ 2. 更新重新计算每个类的中心作为新码字 │ │ 3. 检查如果变化很小停止 │ └─────────────────────────────────────┘ 第3步输出最终码本码本分裂初始化初始只有一个码字全体中心 分裂×2加微小扰动 分裂×4 ...直到达到所需码本大小六、矢量量化的类型1. 基本VQ最简单的形式一个矢量用一个索引表示。2. 多级VQMSVQ第一级VQ → 残差 → 第二级VQ → 残差 → 第三级VQ 索引1 差值 索引2 差值 索引3优点减少码本大小渐进传输3. 分裂VQSplit VQ把大矢量分成几个子矢量分别量化[特征矢量32维] → [16维]VQ [16维]VQ优点降低复杂度4. 增益-形状VQGSVQ分别量化矢量的方向和大小形状码本单位长度的方向模板增益缩放因子单独量化七、实际应用1. 语音编码CELP编码器语音压缩的核心把语音帧如20ms作为一个矢量压缩率极高64kbps PCM → 8kbps CELP2. 图像压缩早期彩色图像压缩把颜色矢量量化纹理压缩手机GPU用VQ压缩纹理3. 特征压缩人脸识别把人脸特征矢量量化图像检索SIFT特征用VQ建视觉词袋4. 数据聚类K-means聚类本质就是矢量量化数据挖掘把相似数据归为一类八、矢量量化的优缺点优点✅压缩率极高多个数用一个索引代替✅解码极快只需查表没有计算✅率失真最优理论上优于标量量化✅适合低码率极低比特率下的最佳选择缺点❌编码复杂需要在码本中搜索最近模板❌码本训练耗时需要大量训练数据❌码本存储开销需要传输或存储码本❌对码本敏感不匹配的数据效果差九、生活中的例子例子1彩色量化一张真彩色图片1600万色转成256色GIF原始每个像素24比特GIF每个像素8比特索引压缩率66%秘诀把相似颜色用一个代表色代替例子2手机语音你在微信发语音原始语音128kbps压缩后8kbps还能听清秘诀用VQ把语音特征量化例子3人脸聚类手机相册自动归类提取人脸特征128维矢量用VQ思想把相似人脸聚在一起张三、李四自动分好十、Mermaid总结框图十一、完整的例子图像VQ假设有一张灰度图用VQ压缩训练阶段收集大量图像块4×416维 用LBG算法训练256个码字 码本大小256 × 16 × 1字节 4KB编码阶段原始图像512×512像素 262144像素 分成4×4块128×128 16384块 每块在码本中找最近模板 - 计算块与256个模板的欧氏距离 - 找最小距离的模板索引0-255 - 输出16384个索引 压缩率计算 原始262144字节 压缩后16384字节索引 4KB码本 20KB 压缩率92%20KB/256KB解码阶段收到16384个索引 用索引查码本得到模板 拼成512×512图像十二、核心启示整体优于局部联合量化比独立量化效率高模板匹配思想用有限模板代表无限可能训练是关键好码本决定好效果不对称复杂度编码复杂解码快适合一次编码多次解码率失真理论最优理论上限极高打个比方标量量化像给每个人单独做衣服每个数单独处理矢量量化像服装店卖S/M/L/XL码用模板代替码本训练像设计师研究大量人体数据确定最合适的几个尺码编码像顾客试穿找最合身的码最近邻搜索解码像直接从货架拿对应尺码的衣服查表矢量量化就是这样一个用有限模板代表无限可能的聪明方法