上班自己花钱做的网站哪个公司做农村产权交易网站
上班自己花钱做的网站,哪个公司做农村产权交易网站,公司名称注册规则,门户网站 技术方案Qwen3-ASR-0.6B快速部署教程#xff1a;Ubuntu20.04环境配置指南
最近阿里开源的Qwen3-ASR系列语音识别模型挺火的#xff0c;特别是那个0.6B的小模型#xff0c;说是能在10秒内处理5小时的音频#xff0c;还支持52种语言和方言。很多朋友想试试#xff0c;但卡在了环境配…Qwen3-ASR-0.6B快速部署教程Ubuntu20.04环境配置指南最近阿里开源的Qwen3-ASR系列语音识别模型挺火的特别是那个0.6B的小模型说是能在10秒内处理5小时的音频还支持52种语言和方言。很多朋友想试试但卡在了环境配置这一步。今天我就来手把手教你在Ubuntu 20.04上部署Qwen3-ASR-0.6B从驱动安装到模型加载把常见的坑都帮你填平。就算你之前没怎么接触过AI模型部署跟着步骤走也能搞定。1. 准备工作检查你的硬件和系统在开始之前先确认一下你的机器配置。Qwen3-ASR-0.6B虽然是个小模型但跑起来还是需要一些硬件支持的。硬件要求GPU至少8GB显存的NVIDIA显卡RTX 3060、3070或更高内存16GB以上存储至少20GB可用空间模型本身不大但依赖包和缓存需要空间软件要求Ubuntu 20.04 LTS其他版本可能也行但本文以20.04为准Python 3.8-3.11推荐3.10CUDA 11.8或12.1后面会详细讲怎么装打开终端先检查一下你的系统信息# 查看Ubuntu版本 lsb_release -a # 查看GPU信息 nvidia-smi如果nvidia-smi命令报错说明你的NVIDIA驱动还没装好别急我们下一步就来解决这个问题。2. 安装NVIDIA驱动和CUDA这是最容易出问题的一步很多人在这里就卡住了。其实只要按顺序来一点都不难。2.1 先装NVIDIA驱动Ubuntu 20.04自带的驱动可能不是最新的我们手动安装一下# 更新系统包列表 sudo apt update # 安装必要的工具 sudo apt install -y build-essential # 查看推荐的驱动版本 ubuntu-drivers devices # 安装推荐的驱动这里以nvidia-driver-535为例实际根据上面命令的推荐来 sudo apt install -y nvidia-driver-535 # 重启系统 sudo reboot重启后再次运行nvidia-smi应该能看到GPU信息了。如果显示正常说明驱动安装成功。2.2 安装CUDA ToolkitQwen3-ASR支持CUDA 11.8和12.1我推荐用11.8因为兼容性更好一些。# 下载CUDA 11.8的安装包 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run # 给安装文件执行权限 chmod x cuda_11.8.0_520.61.05_linux.run # 运行安装程序 sudo ./cuda_11.8.0_520.61.05_linux.run安装过程中需要注意几个地方接受许可协议按空格翻页然后输入accept取消勾选Driver因为我们已经装了驱动确保CUDA Toolkit 11.8被选中安装路径用默认的就行安装完成后需要配置环境变量# 编辑bash配置文件 nano ~/.bashrc # 在文件末尾添加以下内容 export PATH/usr/local/cuda-11.8/bin${PATH::${PATH}} export LD_LIBRARY_PATH/usr/local/cuda-11.8/lib64${LD_LIBRARY_PATH::${LD_LIBRARY_PATH}} # 保存退出CtrlX然后按Y再按Enter # 使配置生效 source ~/.bashrc验证CUDA是否安装成功# 检查CUDA版本 nvcc --version # 应该看到类似这样的输出 # nvcc: NVIDIA (R) Cuda compiler driver # Copyright (c) 2005-2022 NVIDIA Corporation # Built on Wed_Sep_21_10:33:58_PDT_2022 # Cuda compilation tools, release 11.8, V11.8.892.3 安装cuDNN可选但推荐cuDNN能加速深度学习计算虽然不是必须的但装了之后推理速度会快不少。# 先安装一些依赖 sudo apt install -y zlib1g # 下载cuDNN需要先注册NVIDIA开发者账号这里假设你已经下载了tar文件 # 解压文件 tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda11-archive.tar.xz # 复制文件到CUDA目录 sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda-11.8/include sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda-11.8/lib64 sudo chmod ar /usr/local/cuda-11.8/include/cudnn*.h /usr/local/cuda-11.8/lib64/libcudnn*3. 配置Python环境现在驱动和CUDA都装好了我们来准备Python环境。强烈建议使用conda或venv创建虚拟环境避免包冲突。3.1 安装Miniconda如果还没装# 下载Miniconda安装脚本 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh # 运行安装脚本 bash Miniconda3-latest-Linux-x86_64.sh # 按照提示安装建议安装在默认路径 # 安装完成后重启终端或者运行 source ~/.bashrc3.2 创建虚拟环境# 创建名为qwen3-asr的环境指定Python 3.10 conda create -n qwen3-asr python3.10 -y # 激活环境 conda activate qwen3-asr激活环境后命令行前面应该会显示(qwen3-asr)表示你现在在这个虚拟环境里操作。4. 安装Qwen3-ASR和相关依赖终于到了安装模型本身的环节了。Qwen3-ASR提供了两种后端Transformers和vLLM。vLLM速度更快但Transformers更稳定。我们先从Transformers开始。4.1 基础安装Transformers后端# 安装PyTorch注意版本要和CUDA匹配 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装Qwen3-ASR pip install -U qwen-asr这个qwen-asr包会自动安装所有必要的依赖包括transformers、datasets等。4.2 安装vLLM后端可选推荐如果你想要更快的推理速度可以安装vLLM后端# 安装vLLM这个可能需要等一会儿 pip install -U qwen-asr[vllm]4.3 安装FlashAttention2强烈推荐FlashAttention2能大幅提升注意力计算的速度特别是处理长音频的时候# 安装FlashAttention2 pip install -U flash-attn --no-build-isolation安装过程中如果报错可能是缺少一些编译工具# 安装编译依赖 sudo apt install -y python3-dev build-essential5. 快速测试跑起来看看环境都装好了我们来写个简单的测试脚本看看一切是否正常。创建一个文件叫test_asr.pyimport torch from qwen_asr import Qwen3ASRModel # 加载0.6B模型 print(正在加载Qwen3-ASR-0.6B模型...) model Qwen3ASRModel.from_pretrained( Qwen/Qwen3-ASR-0.6B, dtypetorch.bfloat16, # 使用bfloat16节省显存 device_mapcuda:0, # 使用第一个GPU max_inference_batch_size8, # 批处理大小根据显存调整 max_new_tokens256, # 最大生成token数 ) print(模型加载成功) # 准备一个测试音频这里用官方提供的示例 test_audio https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav print(f正在识别音频: {test_audio}) # 进行语音识别 results model.transcribe( audiotest_audio, languageNone, # 自动检测语言 ) # 输出结果 print(f检测到的语言: {results[0].language}) print(f识别结果: {results[0].text})运行这个脚本python test_asr.py第一次运行会下载模型文件大概需要1-2GB的磁盘空间耐心等待一下。下载完成后你应该能看到类似这样的输出正在加载Qwen3-ASR-0.6B模型... 模型加载成功 正在识别音频: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav 检测到的语言: English 识别结果: Okay, Charles. It looks like we have a problem with the radio. What happened? Yeah, someone spilled water on their machine. I uh, yeah. Charles, can you hear us? Mamma mia.恭喜你的Qwen3-ASR-0.6B已经成功运行了。6. 处理本地音频文件刚才我们测试的是网络音频实际使用中更多是处理本地文件。我们来写一个处理本地WAV文件的例子。首先确保你有一个WAV格式的音频文件。如果没有可以用ffmpeg转换# 安装ffmpeg sudo apt install -y ffmpeg # 转换MP3到WAV如果有MP3文件的话 ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav然后创建一个处理本地文件的脚本local_asr.pyimport torch from qwen_asr import Qwen3ASRModel import os # 检查文件是否存在 audio_file your_audio.wav # 改成你的音频文件路径 if not os.path.exists(audio_file): print(f文件 {audio_file} 不存在) print(请确保) print(1. 文件路径正确) print(2. 文件是WAV格式) print(3. 采样率最好是16000Hz单声道) exit(1) # 加载模型 model Qwen3ASRModel.from_pretrained( Qwen/Qwen3-ASR-0.6B, dtypetorch.bfloat16, device_mapcuda:0, ) # 识别本地文件 print(f正在处理: {audio_file}) results model.transcribe( audioaudio_file, languageChinese, # 如果知道语言可以指定不知道就写None ) print(识别完成) print(f语言: {results[0].language}) print(f文本: {results[0].text}) # 如果需要时间戳 print(\n如果需要时间戳可以这样加载对齐模型) print( model_with_aligner Qwen3ASRModel.from_pretrained( Qwen/Qwen3-ASR-0.6B, dtypetorch.bfloat16, device_mapcuda:0, forced_alignerQwen/Qwen3-ForcedAligner-0.6B, forced_aligner_kwargsdict( dtypetorch.bfloat16, device_mapcuda:0, ), ) results model_with_aligner.transcribe( audioaudio_file, languageChinese, return_time_stampsTrue, ) for word, start, end in results[0].time_stamps: print(f{word}: {start:.2f}s - {end:.2f}s) )7. 常见问题解决在实际部署中你可能会遇到一些问题。这里我整理了几个常见的问题1CUDA out of memory显存不足症状运行时报错提示CUDA内存不足。解决减小max_inference_batch_size比如从8改成4或2使用更小的数据类型比如torch.float16代替torch.bfloat16如果音频很长可以分段处理# 调整后的配置 model Qwen3ASRModel.from_pretrained( Qwen/Qwen3-ASR-0.6B, dtypetorch.float16, # 改用float16 device_mapcuda:0, max_inference_batch_size2, # 减小批处理大小 )问题2下载模型太慢症状第一次运行卡在下载模型速度很慢。解决使用国内镜像源或者先手动下载模型文件# 使用ModelScope国内镜像 pip install modelscope然后在代码中from modelscope import snapshot_download model_dir snapshot_download(Qwen/Qwen3-ASR-0.6B) model Qwen3ASRModel.from_pretrained( model_dir, # 使用本地路径 # ... 其他参数 )问题3音频格式不支持症状处理某些音频文件时报错。解决Qwen3-ASR主要支持WAV格式其他格式需要先转换。# 安装音频处理工具 sudo apt install -y sox # 转换各种格式到WAV sox input.mp3 -r 16000 -c 1 output.wav sox input.m4a -r 16000 -c 1 output.wav sox input.flac -r 16000 -c 1 output.wav问题4Python包冲突症状安装时各种版本冲突。解决这就是为什么我们要用虚拟环境。如果还有问题可以尝试# 在虚拟环境中 conda activate qwen3-asr # 先卸载可能有冲突的包 pip uninstall -y torch torchvision torchaudio pip uninstall -y transformers # 重新安装指定版本 pip install torch2.1.0 torchvision0.16.0 torchaudio2.1.0 --index-url https://download.pytorch.org/whl/cu118 pip install transformers4.38.0 pip install qwen-asr8. 进阶使用批量处理和API服务如果你需要处理大量音频或者想提供在线服务可以看看这些进阶用法。批量处理多个文件import torch from qwen_asr import Qwen3ASRModel import os model Qwen3ASRModel.from_pretrained( Qwen/Qwen3-ASR-0.6B, dtypetorch.bfloat16, device_mapcuda:0, max_inference_batch_size4, # 可以同时处理4个文件 ) # 音频文件列表 audio_files [ audio1.wav, audio2.wav, audio3.wav, audio4.wav, ] # 批量识别 results model.transcribe( audioaudio_files, languageNone, # 自动检测每个文件的语言 ) for i, result in enumerate(results): print(f文件: {audio_files[i]}) print(f语言: {result.language}) print(f文本: {result.text[:100]}...) # 只显示前100字符 print(- * 50)启动API服务使用vLLM如果你安装了vLLM后端可以启动一个HTTP API服务# 启动服务 qwen-asr-serve Qwen/Qwen3-ASR-0.6B \ --gpu-memory-utilization 0.8 \ --host 0.0.0.0 \ --port 8000然后用Python调用from openai import OpenAI client OpenAI( base_urlhttp://localhost:8000/v1, api_keyEMPTY # vLLM不需要API key ) response client.chat.completions.create( modelQwen/Qwen3-ASR-0.6B, messages[ { role: user, content: [ { type: audio_url, audio_url: { url: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav } } ] } ], ) print(response.choices[0].message.content)9. 总结走完这一趟你应该已经在Ubuntu 20.04上成功部署了Qwen3-ASR-0.6B。整个过程看起来步骤不少但大部分都是一次性的设置。装好之后用起来其实挺简单的。我自己的体验是这个0.6B的模型在速度和精度之间平衡得不错。处理中文普通话的准确率很高对方言的支持也比我想象的好。最让我惊讶的是它处理快节奏说唱音乐的能力确实有点东西。如果你只是偶尔用用用Transformers后端就够了安装简单稳定性好。如果需要处理大量音频或者提供在线服务那vLLM后端值得一试速度提升很明显。部署过程中如果遇到问题别急着放弃。大部分问题都能通过调整参数或者重新安装依赖解决。实在搞不定可以去Qwen的GitHub仓库看看Issues很可能已经有人遇到并解决了同样的问题。现在你的语音识别环境已经准备好了可以开始尝试各种应用场景了。比如给视频自动加字幕、整理会议录音、甚至分析语音情感等等。这个模型支持52种语言和方言能玩的花样还挺多的。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。