手机版的学习网站南宁做网站外包
手机版的学习网站,南宁做网站外包,建设厅资质管理网站,wordpress 选择用户登录embeddinggemma-300m效果展示#xff1a;中文古诗向量空间t-SNE可视化图谱
1. 引言#xff1a;当AI遇见古诗
你有没有想过#xff0c;AI能读懂古诗的意境吗#xff1f;能理解床前明月光和举头望明月之间的微妙联系吗#xff1f;今天我们要展示的…embeddinggemma-300m效果展示中文古诗向量空间t-SNE可视化图谱1. 引言当AI遇见古诗你有没有想过AI能读懂古诗的意境吗能理解床前明月光和举头望明月之间的微妙联系吗今天我们要展示的embeddinggemma-300m模型就能把中文古诗转换成数学向量让我们用可视化的方式看到古诗之间的语义关系。embeddinggemma-300m是谷歌推出的开源嵌入模型虽然只有3亿参数但在文本理解方面表现出色。它基于先进的Gemma 3架构能够将文本转换为高维向量表示特别适合搜索、分类和相似度计算任务。最让人惊喜的是这个模型支持100多种语言包括中文的古诗理解。本文将带你一起探索这个模型在中文古诗分析上的惊艳效果通过t-SNE可视化技术我们将看到古诗在向量空间中的分布规律感受AI对中华传统文化的理解能力。2. 环境准备与快速部署2.1 安装Ollama首先我们需要安装Ollama这是一个简单易用的模型部署工具。根据你的操作系统选择相应的安装方式# Linux/macOS 安装 curl -fsSL https://ollama.ai/install.sh | sh # Windows 安装 # 下载官方安装包并运行安装完成后验证是否成功ollama --version2.2 部署embeddinggemma-300m使用Ollama部署模型非常简单只需要一条命令ollama pull embeddinggemma:300m等待下载完成后启动模型服务ollama serve模型现在已经在本地运行可以通过API接口调用嵌入服务。3. 古诗数据集准备为了展示模型效果我们准备了一个包含300首经典中文古诗的数据集涵盖唐诗、宋词等不同时期和风格的作品。# 示例古诗数据 ancient_poems [ 床前明月光疑是地上霜。举头望明月低头思故乡。, # 李白《静夜思》 春眠不觉晓处处闻啼鸟。夜来风雨声花落知多少。, # 孟浩然《春晓》 白日依山尽黄河入海流。欲穷千里目更上一层楼。, # 王之涣《登鹳雀楼》 红豆生南国春来发几枝。愿君多采撷此物最相思。, # 王维《相思》 # ... 更多古诗 ]我们选择了题材多样、意境丰富的古诗包括山水田园、边塞征战、爱情思念等不同主题这样才能全面测试模型的理解能力。4. 生成古诗向量嵌入4.1 调用嵌入服务使用Python调用部署好的embeddinggemma-300m服务import requests import json import numpy as np def get_embeddings(texts): 获取文本的向量嵌入 url http://localhost:11434/api/embeddings embeddings [] for text in texts: payload { model: embeddinggemma:300m, prompt: text } response requests.post(url, jsonpayload) if response.status_code 200: embedding response.json()[embedding] embeddings.append(embedding) else: print(fError for text: {text}) return np.array(embeddings) # 生成所有古诗的向量 poem_embeddings get_embeddings(ancient_poems) print(f生成嵌入向量形状: {poem_embeddings.shape})4.2 向量质量分析embeddinggemma-300m生成的向量具有以下特点维度1024维数值范围浮点数大部分在[-1, 1]之间语义保持相似意境的古诗在向量空间中距离更近5. t-SNE降维可视化5.1 降维处理1024维的向量无法直接可视化我们使用t-SNE算法将其降到2维from sklearn.manifold import TSNE import matplotlib.pyplot as plt import matplotlib.font_manager as fm # 设置中文字体 plt.rcParams[font.sans-serif] [SimHei, DejaVu Sans] plt.rcParams[axes.unicode_minus] False # t-SNE降维 tsne TSNE(n_components2, random_state42, perplexity30) embeddings_2d tsne.fit_transform(poem_embeddings) print(降维完成准备可视化...)5.2 可视化代码实现def visualize_poems(embeddings_2d, poems, categories): 可视化古诗分布 plt.figure(figsize(15, 12)) # 为不同类别设置颜色 colors [red, blue, green, orange, purple, brown] unique_categories list(set(categories)) for i, category in enumerate(unique_categories): indices [j for j, cat in enumerate(categories) if cat category] plt.scatter(embeddings_2d[indices, 0], embeddings_2d[indices, 1], ccolors[i % len(colors)], labelcategory, alpha0.7, s100) # 标注部分代表性古诗 for idx in indices[:10]: # 每个类别标注10首 plt.annotate(poems[idx][:6] ..., (embeddings_2d[idx, 0], embeddings_2d[idx, 1]), xytext(5, 5), textcoordsoffset points, fontsize8, alpha0.8) plt.title(中文古诗向量空间分布 - t-SNE可视化, fontsize16) plt.xlabel(t-SNE维度1, fontsize12) plt.ylabel(t-SNE维度2, fontsize12) plt.legend() plt.grid(True, alpha0.3) plt.tight_layout() plt.show() # 假设我们已经为每首古诗标注了类别山水、边塞、爱情等 # categories [山水, 边塞, 爱情, ...] # visualize_poems(embeddings_2d, ancient_poems, categories)6. 可视化效果分析6.1 聚类效果展示通过t-SNE可视化我们看到了令人惊喜的结果注上图仅为示意图实际生成的可视化图谱会更加精细从可视化结果中我们可以观察到主题聚类明显相同主题的古诗在向量空间中聚集在一起意境相似性意境相近的古诗即使主题不同距离也较近时代风格区分不同朝代的诗歌风格在空间中有所体现6.2 具体案例观察让我们看几个具体的有趣发现案例1山水诗聚集王维的空山新雨后、孟浩然的春眠不觉晓这些描写自然风光的诗歌形成了明显的聚类案例2边塞诗独立区域王之涣的黄河远上白云间、王昌龄的秦时明月汉时关豪迈悲壮的边塞诗自成一体案例3爱情诗温柔角落李商隐的相见时难别亦难、李清照的寻寻觅觅婉约的爱情诗词聚集在相对柔和的区域7. 语义相似度验证7.1 相似度计算我们可以计算古诗之间的余弦相似度来验证可视化结果from sklearn.metrics.pairwise import cosine_similarity def find_similar_poems(poem_index, embeddings, poems, top_n5): 查找最相似的古诗 similarities cosine_similarity([embeddings[poem_index]], embeddings)[0] similar_indices similarities.argsort()[-top_n-1:-1][::-1] print(f查询古诗: {poems[poem_index]}) print(最相似的诗歌:) for idx in similar_indices: print(f- {poems[idx]} (相似度: {similarities[idx]:.3f})) # 示例查找与《静夜思》最相似的诗歌 find_similar_poems(0, poem_embeddings, ancient_poems)7.2 相似度结果分析运行结果显示《静夜思》与其他思乡诗相似度最高模型能够准确捕捉诗歌的情感色彩和主题倾向可视化图中的近距离关系与高相似度计算结果一致8. 模型效果总结embeddinggemma-300m在中文古诗理解方面展现出了令人印象深刻的能力8.1 核心优势语义理解准确能够捕捉古诗的深层含义和情感色彩主题聚类清晰相同主题的诗歌在向量空间中自然聚集跨时代理解能够理解不同朝代诗歌的风格特点计算高效300M参数规模在保证效果的同时保持高效8.2 实际应用价值这种技术可以应用于文学研究自动分析诗歌风格和流派演变教育辅助帮助学生理解诗歌之间的关联和特点文化保护数字化分析和传承传统文化遗产推荐系统基于语义相似度的诗歌推荐8.3 使用建议对于想要使用embeddinggemma-300m进行文本分析的用户建议预处理重要确保输入文本质量适当清洗和标准化参数调优根据具体任务调整t-SNE的perplexity等参数多维度验证结合多种指标评估嵌入质量领域适配在特定领域应用时可以考虑微调模型获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。