中山发布微信公众号seo网站建设公司

张

张建站

2026/5/26 17:48:13

10分钟阅读

中山发布微信公众号,seo网站建设公司,金耀网站建设网站制作,营销型网站制作建设【AI基础学习系列】七、LLM基础-Token#xff08;2026最实用版#xff09; 欢迎来到系列第七讲#xff01; 前面我们聊了注意力机制#xff0c;这次直击LLM最底层、最容易被忽略却最影响成本、速度、效果的部分——Token#xff08;令牌#xff09;。 2026年的现实认知…【AI基础学习系列】七、LLM基础-Token2026最实用版欢迎来到系列第七讲前面我们聊了注意力机制这次直击LLM最底层、最容易被忽略却最影响成本、速度、效果的部分——Token令牌。2026年的现实认知你以为模型读的是“字”或“词”错它读的是tokenToken数量直接决定上下文长度、推理成本、速度、甚至模型对不同语言的“友好度”很多人用大模型半年还不知道自己的prompt到底吃了多少token → 浪费钱上下文溢出我们用最白话的方式拆解什么是token → 怎么产生的 → 常见误区 → 中英文/代码差异 → 2026主流模型token规则 → 怎么自己算/省token一、Token到底是什么一句话定义2026版Token LLM能一次性“看到”和“处理”的最小文本单元通常是数字ID对应一小段子词/词/标点/字节。不是字符太碎序列太长不是完整单词太稀疏新词/OOV问题严重而是subword子词级别的智能切分模型的整个世界就是一串数字ID序列token IDs → 通过Embedding查表变成向量 → 进Transformer二、主流分词方式为什么几乎全用BPE / SentencePiece2026标配分词类型原理简述优点缺点/痛点代表模型2026Word-level直接按空格/标点切完整词简单、直观词汇表爆炸、新词/OOV多基本淘汰Char-level每个字符/字节一个token无OOV、支持任意语言序列超长注意力O(n²)爆炸极少数实验模型Subword (主流)BPE / WordPiece / Unigram / SentencePiece平衡长度覆盖率处理新词语言不平等中日韩/代码多token几乎全部GPT、Claude、Llama、Qwen、Grok、DeepSeekByte-level BPE从UTF-8字节开始合并零OOV、支持emoji/乱码/多语言英文稍多tokenGPT-4 cl100k_base、Llama3、RoBERTaBPEByte Pair Encoding工作原理超简版生活类比拼乐高把所有文本拆成单个字符/字节统计最常一起出现的相邻pair比如 ‘t’‘h’ → “th”把最常见的pair合并成一个新“零件”新token重复合并直到词汇表达到目标大小通常3万–25万常见词如the变成1个token稀有词如tokenization拆成[“token”,“ization”]结果高频 → 1 token低频/新词 → 几token未知字符fallback到字节三、Token vs Word常见误区真实换算2026数据语言/类型粗略换算token ≈ ? 个英文单词token ≈ ? 个中文字符为什么2026观察例子用GPT-4 cl100k_base tokenizer英文普通文本1 token ≈ 0.75–1 word—常见词1 token空格/标点常单独或合并“Hello world!” → ≈4 tokens中文—1 token ≈ 1.3–2 字中文无空格每个汉字常1 token常见词组可能合并“你好世界” → ≈6–8 tokens代码Python1 token ≈ 0.5–0.8 word—变量名、缩进、符号常拆分但新tokenizer优化了空格序列“def add(a,b): return ab” → ≈10–14 tokens数字/日期波动大—“2026-02-25” 可能1–5 tokens取决于tokenizer“20250225” → 可能2–4 tokensEmoji/特殊符号常多token— 常拆成多个字节 → 可能2–5 tokens误区Top5很多人踩“中文一个字一个token” →错常见字1 token但组合/生僻字多token“token数 ≈ 字数 / 2” → 英文≈字数×1.3–1.5中文≈字数×1.5–2.5视tokenizer“所有模型token数一样” →错同一个句子在Claude、Grok、DeepSeek token数可能差30–50%“上下文长度是按字/词算” → 全是token128k token ≈ 英文10万字 ≈ 中文6–8万字“token越少越好” → 不一定太碎char-level序列长注意力成本高四、2026主流模型Token 上下文长度速查表实用版模型家族Tokenizer类型词汇表大小约典型上下文长度2026.2主流token效率英文/中文相对备注GPT-5 / GPT-4o系列cl100k_base / 更新版 BPE~100k–200k128k–400k高英文最优OpenAI tiktoken可直接算Claude 4 / 4.5Claude专用~100k200k部分beta 1M高标点/空格优化好Grok 4.1Grok专用大2M行业最大之一高长上下文神器价格亲民DeepSeek R1 / V3BPE变体~100k128k–512k中–高中文友好性价比王中文token效率好Qwen 3 / Qwen-MaxSentencePiece~150k128k–1M高中文极优中文token最省之一Llama 4 / Gemma 3SentencePiece BPE32k–256k128k–10M部分变体中开源最长上下文选项Gemini 3 / 2.5SentencePiece变体~256k1M–2M高多模态token统一计算一句话总结2026上下文从128k → 2M已成为标配长上下文高效tokenization是竞争焦点。五、怎么自己算token零代码/有代码两种方式最简单直接粘贴到模型官网tokenizer工具OpenAI: platform.openai.com/tokenizerGrok / Claude / Gemini聊天界面常有token计数器代码方式Python推荐tiktoken最方便# pip install tiktokenimporttiktoken enctiktoken.get_encoding(cl100k_base)# GPT-4 tokenizertext【AI基础学习系列】七、LLM基础-Tokentokensenc.encode(text)print(len(tokens))# token数量print(enc.decode(tokens))# 还原文本其他模型用HuggingFace tokenizers库加载对应模型的tokenizer。六、Token省钱/省上下文小技巧2026实战用结构化PromptXML/JSON减少废token删掉不必要的空格/换行/礼貌语“请”、谢谢吃token中文场景优先Qwen/DeepSeektoken更省长文档用RAG而非全塞上下文监控API返回的usage → prompt_tokens completion_tokens下一讲预告【AI基础学习系列】八、Embeddings 向量数据库基础RAG前置知识为什么RAG能大幅减少幻觉因为向量相似度找最相关chunk你现在最想先搞哪一块Token计算实战给我一段文本我帮你拆token中英文token差异可视化例子怎么用tiktoken批量算prompt成本2026超长上下文模型2M实际体验分享直接跳到Embeddings / 向量搜索告诉我我下一讲就按你的需求展开

无水印做海报的网站电脑培训零基础培训班

1. FOC电流控制中的ADC采样与中断处理机制在基于STM32的FOC（Field-Oriented Control）电机控制系统中，电流采样是整个闭环控制链路的感知起点。其精度、时序一致性与实时性直接决定了DQ轴电流环的动态响应能力与稳态精度。本节聚焦于ADC采样中断服务程序（ISR）在FOC电流控…...

2026/4/9 22:44:35 阅读更多 →

深圳网站维护一般多少钱东台建设局网站

目录智慧农场管理系统开题报告介绍系统核心功能技术架构创新点与优势应用场景与预期效果实施计划与挑战项目技术支持可定制开发之功能亮点源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作智慧农场管理系统开题报告介绍智慧农场管理系统是一…...

2026/4/9 22:48:53 阅读更多 →

银川网站建设那家公司比较好甘肃省建设厅备案在哪个网站

Multi-Agent系统的概念与优势关键词：Multi-Agent系统、智能体、分布式系统、协作、自主性、适应性、优势摘要：本文围绕Multi - Agent系统展开，详细阐述了其核心概念、架构原理，深入剖析了该系统所具备的独特优势。通过对核心算法原理的Python代码实现、数学模型的公式推导…...

2026/4/9 22:47:55 阅读更多 →