有没有给做淘宝网站的,上海工商网查询官网,wordpress 蛋彩画主题,wordpress后台显示英文Open-AutoGLM新手教程#xff1a;无需代码#xff0c;用自然语言指挥AI操作手机 想象一下#xff0c;你只需要对手机说一句“打开小红书#xff0c;搜索美食视频”#xff0c;它就能自动完成解锁、打开应用、点击搜索框、输入文字、浏览结果等一系列操作。这不再是科幻电影…Open-AutoGLM新手教程无需代码用自然语言指挥AI操作手机想象一下你只需要对手机说一句“打开小红书搜索美食视频”它就能自动完成解锁、打开应用、点击搜索框、输入文字、浏览结果等一系列操作。这不再是科幻电影里的场景而是今天就能用开源项目Open-AutoGLM实现的真实体验。你是不是也厌倦了每天重复点击手机或者想自动化一些繁琐的流程但又觉得写代码太麻烦Open-AutoGLM 就是为你准备的解决方案。它是一个基于智谱AI大模型的手机智能助理框架最大的特点就是你只需要用自然语言告诉它要做什么它就能自己看懂屏幕、规划步骤、执行操作。本文将带你从零开始手把手教你如何部署和使用 Open-AutoGLM让你在10分钟内就能体验到用自然语言控制手机的魔力。无论你是技术小白还是开发者都能轻松上手。1. 它能做什么先看几个真实例子在开始之前我们先看看 Open-AutoGLM 能帮你完成哪些任务这样你就能知道它到底有多实用。1.1 日常操作自动化打开应用并搜索“打开抖音搜索‘猫咪搞笑视频’并播放第一个”社交消息处理“打开微信找到‘工作群’发送‘会议推迟到下午3点’”购物比价“打开淘宝和京东分别搜索‘iPhone 15’截图价格对比”内容创作“打开小红书发布一张图片配文‘周末的咖啡时光’”1.2 复杂任务串联出行规划“打开地图搜索‘最近的星巴克’导航过去然后截图路线”信息收集“打开微博热搜榜把前5条热搜标题保存到备忘录”文件管理“在相册里找到最近一周的照片批量分享到微信文件助手”1.3 跨应用工作流阅读转存“打开今日头条阅读科技板块把感兴趣的文章链接保存到备忘录”购物提醒“打开拼多多查看‘我的订单’如果有明天到货的设置日历提醒”核心价值它就像一个24小时在线的智能助手能理解你的自然语言指令然后像真人一样操作你的手机完成各种任务。2. 准备工作你需要这些东西在开始部署之前请确保你准备好了以下环境和设备。整个过程就像搭积木一步一步来很简单。2.1 硬件与软件要求项目要求说明电脑Windows / macOS / Linux推荐 Windows 10 或 macOS 10.15手机Android 7.0需要开启开发者模式Python3.10这是运行控制代码的环境网络电脑和手机在同一网络用于无线连接也可以用USB线存储空间至少2GB可用空间用于安装Python包和代码2.2 手机端设置关键步骤这是最重要的一步需要你在手机上完成几个设置。别担心跟着做就行。步骤1开启开发者模式打开手机的“设置”应用找到“关于手机”或“系统信息”连续点击“版本号”7次直到出现“您已处于开发者模式”的提示步骤2开启USB调试返回设置主界面现在应该能看到“开发者选项”进入“开发者选项”找到“USB调试”并打开它找到“无线调试”也打开如果要用WiFi连接步骤3安装ADB Keyboard解决中文输入问题因为Android原生的ADB命令不支持中文输入我们需要一个特殊的输入法在手机浏览器中搜索“ADB Keyboard apk下载”下载并安装这个应用它是一个系统输入法安装后进入手机设置 → 系统 → 语言与输入法 → 虚拟键盘将“ADB Keyboard”设为默认输入法重要提示完成测试后记得把输入法改回你常用的否则可能无法正常打字。3. 电脑端环境配置现在我们来配置电脑端的环境主要是安装ADB工具和Python环境。3.1 安装ADB工具Android调试桥ADB是连接电脑和手机的桥梁Open-AutoGLM通过它来控制手机。Windows用户安装方法下载ADB工具包访问 Android开发者官网下载Windows版本的platform-tools压缩包解压并配置环境变量# 假设解压到 D:\platform-tools # 1. 右键“此电脑” → 属性 → 高级系统设置 → 环境变量 # 2. 在“系统变量”中找到Path点击编辑 # 3. 点击“新建”添加你的ADB路径如D:\platform-tools # 4. 点击确定保存所有设置验证安装打开命令提示符WinR输入cmdadb version如果显示版本号如Android Debug Bridge version 1.0.41说明安装成功。macOS/Linux用户安装方法# 使用Homebrew安装macOS brew install android-platform-tools # 或者手动下载 # 1. 下载platform-tools # 2. 解压后在终端执行 export PATH$PATH:/path/to/platform-tools # 3. 将上述命令添加到 ~/.bashrc 或 ~/.zshrc 使其永久生效3.2 连接手机到电脑连接手机有两种方式USB线连接和WiFi无线连接。推荐先用USB线稳定后再尝试无线。方法一USB线连接最简单用数据线连接手机和电脑在手机上弹出的“允许USB调试吗”提示中选择“允许”在电脑终端执行adb devices如果看到类似下面的输出说明连接成功List of devices attached xxxxxxxx device记下这个设备IDxxxxxxxx后面会用到。方法二WiFi无线连接更方便如果你不想一直插着线可以设置无线连接# 1. 先用USB线连接一次 adb devices # 确认设备已连接 # 2. 设置手机监听5555端口 adb tcpip 5555 # 3. 断开USB线查看手机IP地址 # 在手机设置 → 关于手机 → 状态信息中查看IP地址 # 4. 通过WiFi连接 adb connect 192.168.1.100:5555 # 替换为你的手机IP # 5. 验证连接 adb devices # 应该能看到两个设备一个USB一个网络连接问题排查如果连接失败检查手机和电脑是否在同一WiFi网络确保手机防火墙没有阻止ADB连接尝试重启ADB服务adb kill-server adb start-server4. 部署Open-AutoGLM控制端环境准备好了现在我们来安装Open-AutoGLM的控制代码。这部分就是在你电脑上运行的程序它会接收你的指令然后通过ADB控制手机。4.1 下载代码和安装依赖打开终端Windows用命令提示符或PowerShell依次执行以下命令# 1. 克隆项目代码到本地 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建Python虚拟环境推荐避免包冲突 python -m venv venv # 3. 激活虚拟环境 # Windows: venv\Scripts\activate # macOS/Linux: source venv/bin/activate # 4. 安装依赖包 pip install -r requirements.txt # 5. 以开发模式安装当前包 pip install -e .安装常见问题如果pip命令报错尝试用pip3如果网络慢可以使用国内镜像pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple如果遇到权限问题在命令前加sudomacOS/Linux或以管理员身份运行Windows4.2 验证安装是否成功安装完成后运行一个简单的测试命令python -c import phone_agent; print(Open-AutoGLM导入成功)如果没有报错说明安装成功。如果报错通常是缺少某个依赖包可以尝试重新安装requirements.txt。5. 连接AI模型服务Open-AutoGLM需要一个AI大脑来理解你的指令和分析手机屏幕。你有两个选择使用云端服务或本地部署。5.1 方案一使用CSDN星图镜像推荐给新手对于大多数用户最简单的方法是使用现成的AI服务。CSDN星图镜像广场提供了预配置的AI镜像一键就能用。访问CSDN星图镜像广场打开 CSDN星图镜像广场搜索“AutoGLM”或“GLM”选择并启动镜像找到合适的AutoGLM镜像点击“一键部署”等待部署完成通常1-2分钟获取API地址部署成功后你会得到一个访问地址比如http://123.45.67.89:8000记下这个地址后面会用到优点无需自己配置模型省时省力适合快速体验。5.2 方案二本地部署模型适合开发者如果你有足够的GPU资源至少16GB显存可以在本地部署模型# 1. 安装vLLM高性能推理框架 pip install vllm # 2. 启动模型服务 python -m vllm.entrypoints.openai.api_server \ --model THUDM/autoglm-phone-9b \ --port 8000 \ --max-model-len 8192硬件要求GPURTX 3090/4090 或同等性能至少16GB显存内存32GB以上存储50GB可用空间下载模型权重5.3 方案三使用其他兼容APIOpen-AutoGLM兼容OpenAI API格式所以你也可以使用OpenAI的GPT-4V其他支持视觉语言模型的API服务本地部署的兼容服务6. 第一次运行让AI帮你操作手机一切准备就绪现在我们来运行第一个AI指令体验用自然语言控制手机的神奇感觉。6.1 基础命令格式打开终端进入Open-AutoGLM目录确保虚拟环境已激活然后运行python main.py \ --device-id 你的设备ID \ --base-url AI服务地址 \ --model autoglm-phone-9b \ 你的自然语言指令参数说明--device-id通过adb devices看到的设备ID--base-urlAI模型服务的地址--model模型名称一般用autoglm-phone-9b最后的字符串你要AI执行的任务描述6.2 实际运行示例假设你的设备ID是emulator-5554AI服务地址是http://localhost:8000/v1想打开抖音python main.py \ --device-id emulator-5554 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开抖音运行后你会看到类似这样的输出开始执行任务打开抖音 步骤1检测到当前在桌面需要启动抖音应用 AI思考当前屏幕显示的是手机桌面我需要找到抖音图标并点击 执行动作点击坐标 [540, 1200] 步骤2抖音已打开显示推荐页面 任务完成亲眼见证你的手机会自动解锁如果已连接找到抖音图标点击打开。整个过程完全自动化你只需要在电脑前看着。6.3 更多实用示例示例1搜索并关注博主python main.py \ --device-id emulator-5554 \ --base-url http://localhost:8000/v1 \ 打开抖音搜索抖音号为dycwo11nt61d的博主并关注他AI会执行打开抖音 → 点击搜索 → 输入抖音号 → 进入博主主页 → 点击关注示例2微信发消息python main.py \ --device-id emulator-5554 \ --base-url http://localhost:8000/v1 \ 打开微信找到家人群发送消息今晚7点回家吃饭示例3跨应用操作python main.py \ --device-id emulator-5554 \ --base-url http://localhost:8000/v1 \ 打开相机拍一张照片然后分享到微信朋友圈7. 进阶使用Python API编程控制如果你会一点Python可以用编程的方式更灵活地控制Open-AutoGLM实现自动化工作流。7.1 基本API使用创建一个Python脚本比如my_agent.pyfrom phone_agent import PhoneAgent from phone_agent.config import ModelConfig, AgentConfig # 1. 配置AI模型 model_config ModelConfig( base_urlhttp://localhost:8000/v1, # 你的AI服务地址 model_nameautoglm-phone-9b, api_keyEMPTY # 如果是本地部署填EMPTY ) # 2. 配置Agent参数 agent_config AgentConfig( max_steps50, # 最大执行步数 langcn # 中文界面 ) # 3. 创建Agent实例 agent PhoneAgent( model_configmodel_config, agent_configagent_config, device_idemulator-5554 # 你的设备ID ) # 4. 执行任务 result agent.run(打开小红书搜索周末旅游攻略) print(f任务结果{result})7.2 添加回调函数高级功能Open-AutoGLM支持回调函数可以在特定时机执行自定义操作def my_confirmation_callback(message: str) - bool: 敏感操作确认回调 print(f⚠️ 即将执行敏感操作{message}) user_input input(是否继续(y/n): ) return user_input.lower() y def my_takeover_callback(message: str) - None: 人工接管回调如遇到登录页面 print(f 需要人工干预{message}) input(请手动操作完成后按Enter继续...) # 创建带回调的Agent agent PhoneAgent( model_configmodel_config, agent_configagent_config, device_idemulator-5554, confirmation_callbackmy_confirmation_callback, # 敏感操作确认 takeover_callbackmy_takeover_callback # 人工接管 ) # 现在执行涉及支付的任务时会先询问确认 result agent.run(打开淘宝购买第一个商品)7.3 批量任务执行你可以让AI连续执行多个任务tasks [ 打开天气应用查看今天温度, 截屏保存天气信息, 打开微信把截图发给妈妈, 在微信里说今天天气不错 ] for task in tasks: print(f执行任务{task}) result agent.run(task) print(f结果{result}) print(- * 50)7.4 获取详细执行日志如果你想了解AI的思考过程可以启用详细日志import logging # 设置日志级别为DEBUG logging.basicConfig(levellogging.DEBUG) # 或者直接查看每一步的思考 agent PhoneAgent( model_configmodel_config, agent_configagent_config, device_idemulator-5554, verboseTrue # 启用详细输出 )运行时会显示AI的完整思考过程思考当前在微信聊天页面需要找到输入框 思考输入框在屏幕下方坐标大约是[500, 1800] 思考点击输入框后需要调用键盘输入 执行点击[500, 1800]8. 实用技巧与问题解决在实际使用中你可能会遇到一些问题。这里总结了一些常见问题的解决方法和小技巧。8.1 提高AI操作准确率技巧1使用更具体的指令❌ 不好的指令“打开微信发消息”✅ 好的指令“打开微信在聊天列表中找到‘张三’点击进入聊天页面在输入框输入‘你好’点击发送按钮”技巧2描述界面特征“在红色背景的登录页面找到白色的‘同意’按钮并点击” “在蓝色标题栏下面找到搜索图标放大镜形状并点击”技巧3分步骤执行如果复杂任务失败可以拆分成多个简单任务# 第一步打开应用 python main.py 打开淘宝 # 第二步搜索商品 python main.py 在搜索框输入手机支架并搜索 # 第三步浏览结果 python main.py 滑动浏览搜索结果点击第三个商品8.2 常见问题排查问题1ADB连接失败症状adb devices显示空列表或unauthorized解决# 1. 检查USB线是否连接 # 2. 手机是否弹出“允许USB调试”提示 # 3. 重启ADB服务 adb kill-server adb start-server adb devices # 4. 如果还是不行尝试重启手机问题2AI不执行操作或执行错误症状AI一直在“思考”但不点击或点击位置不对解决检查AI服务是否正常运行访问http://你的地址:端口/v1/models查看手机屏幕是否亮屏AI需要看到屏幕内容尝试更简单的指令测试检查是否安装了ADB Keyboard并设为默认问题3中文输入乱码症状AI输入的文字变成问号或乱码解决# 1. 确认ADB Keyboard已安装并启用 # 2. 在手机上手动测试 adb shell am broadcast -a ADB_INPUT_TEXT --es msg 测试中文 # 3. 如果不行重新安装ADB Keyboard问题4任务卡在某个步骤症状AI重复执行相同操作无法继续解决按CtrlC中断任务查看当前屏幕状态手动完成当前步骤然后重新开始或者使用--max-steps 20限制最大步数避免死循环8.3 性能优化建议减少等待时间默认每个操作后等待1秒如果觉得太慢可以调整agent_config AgentConfig( max_steps50, step_delay0.5, # 改为0.5秒 langcn )使用更快的AI服务如果使用云端服务选择离你最近的服务器节点减少网络延迟。关闭不必要的手机动画在手机开发者选项中关闭“窗口动画缩放”关闭“过渡动画缩放”关闭“动画程序时长缩放” 这样AI操作更快识别更准确。9. 实际应用场景案例了解了基本用法后我们来看看Open-AutoGLM在实际生活中能帮你做什么。9.1 场景一自动化日常任务早晨起床流程自动化# 创建一个morning.sh脚本 #!/bin/bash python main.py 关闭闹钟 python main.py 打开天气应用查看今天温度和天气 python main.py 打开新闻应用浏览头条新闻 python main.py 打开微信查看未读消息工作日报自动填写# 每天下午5点自动填写日报 import schedule import time def fill_daily_report(): tasks [ 打开企业微信, 点击工作台, 点击日报, 在今日工作内容输入完成了项目模块开发, 在明日计划输入继续优化代码, 点击提交 ] for task in tasks: agent.run(task) time.sleep(1) # 每天17:00执行 schedule.every().day.at(17:00).do(fill_daily_report)9.2 场景二批量处理手机操作批量保存图片# 自动保存微信聊天中的所有图片 for i in range(10): # 假设有10张图片 agent.run(长按当前图片) agent.run(点击保存到相册) agent.run(向右滑动到下一张图片)清理手机存储python main.py 打开文件管理器 python main.py 进入下载文件夹 python main.py 选择所有.zip文件 python main.py 点击删除 python main.py 确认删除9.3 场景三自动化测试与监控应用功能测试# 自动化测试某个App的功能 test_cases [ (测试登录功能, 打开App点击登录输入测试账号点击登录按钮), (测试搜索功能, 在搜索框输入test点击搜索验证结果), (测试设置功能, 点击我的进入设置修改主题为深色模式), ] for test_name, instruction in test_cases: print(f开始测试{test_name}) result agent.run(instruction) # 这里可以添加截图、记录日志等 print(f测试结果{result})网站监控# 定时检查某个网站或服务 import requests def check_website(): agent.run(打开浏览器) agent.run(输入网址https://status.example.com) agent.run(截图当前页面) # 这里可以添加图片识别判断服务状态 print(检查完成) # 每30分钟检查一次 schedule.every(30).minutes.do(check_website)9.4 场景四辅助特殊人群视力障碍者辅助# 通过语音指令操作手机 import speech_recognition as sr def voice_control(): r sr.Recognizer() with sr.Microphone() as source: print(请说出指令...) audio r.listen(source) try: command r.recognize_google(audio, languagezh-CN) print(f识别到指令{command}) agent.run(command) except: print(无法识别语音) # 循环监听语音指令 while True: voice_control()老年人手机助手# 简化复杂操作 python main.py 打开微信找到儿子打视频电话 python main.py 打开支付宝出示付款码 python main.py 打开健康宝扫描场所码10. 安全注意事项与最佳实践虽然Open-AutoGLM很强大但使用时需要注意安全避免不必要的风险。10.1 安全使用建议1. 使用测试手机或模拟器建议在备用手机或Android模拟器上测试避免在主力机上测试防止误操作模拟器推荐BlueStacks、NoxPlayer、Android Studio自带的模拟器2. 启用操作确认对于涉及支付、删除等重要操作务必启用确认回调def safe_confirmation(message): if any(keyword in message for keyword in [支付, 删除, 转账, 确认]): print(f警告{message}) return False # 默认拒绝敏感操作 return True agent PhoneAgent(confirmation_callbacksafe_confirmation)3. 限制操作范围# 只允许操作特定应用 ALLOWED_APPS [微信, 抖音, 浏览器] def check_app_allowed(): current_app get_current_app() if current_app not in ALLOWED_APPS: print(f不允许操作 {current_app}任务终止) return False return True10.2 隐私保护1. 不要分享屏幕截图Open-AutoGLM会将屏幕截图发送给AI服务确保使用可信的AI服务提供商不要在敏感页面银行、支付、私密聊天运行测试完成后及时清理截图缓存2. 使用本地模型如果担心隐私可以在本地部署模型# 本地部署数据不出本地 python -m vllm.entrypoints.openai.api_server \ --model /path/to/local/model \ --port 80003. 定期清理数据# 清理ADB缓存 adb shell rm -rf /sdcard/tmp.png # 清理本地截图 rm -rf /tmp/phone_agent_screenshots/10.3 性能最佳实践1. 优化指令描述明确具体不要说“打开那个应用”要说“打开微信”分步骤复杂任务拆分成简单指令提供上下文描述界面特征帮助AI识别2. 合理设置参数agent_config AgentConfig( max_steps30, # 根据任务复杂度调整 step_delay0.8, # 操作间隔太快可能识别不准 thinking_timeout10, # AI思考超时时间 retry_times2 # 失败重试次数 )3. 监控运行状态import time start_time time.time() result agent.run(你的指令) end_time time.time() print(f任务耗时{end_time - start_time:.2f}秒) print(f执行步数agent.step_count)11. 总结与下一步11.1 学习回顾通过本教程你应该已经掌握了环境搭建配置ADB、安装Open-AutoGLM、连接手机基础使用用自然语言指令控制手机完成简单任务进阶编程使用Python API实现自动化工作流问题解决排查常见连接和操作问题安全实践安全使用AI自动化工具11.2 核心要点总结无需编程用自然语言就能控制手机大大降低了使用门槛多应用支持支持微信、抖音、淘宝等50主流应用智能理解AI能看懂屏幕内容自主规划操作步骤安全机制支持敏感操作确认和人工接管灵活扩展提供Python API可以集成到各种自动化流程中11.3 下一步学习建议如果你对这个技术感兴趣可以继续深入学习Prompt Engineering如何写出更好的指令让AI更准确地理解你的意图研究源码结构理解Open-AutoGLM的内部工作原理尝试自定义模型训练针对特定应用的专用模型集成到工作流将手机自动化与电脑自动化结合实现端到端的自动化探索更多应用场景自动化测试、数据采集、智能助手等11.4 开始你的第一个项目现在尝试用Open-AutoGLM解决一个你实际遇到的问题选择一个重复性任务比如每天都要做的手机操作设计指令流程拆分成AI能理解的步骤编写脚本用Python或直接命令行运行测试优化运行测试根据结果调整指令定时执行设置定时任务让AI自动完成记住最好的学习方式就是动手实践。从简单的任务开始逐步尝试更复杂的自动化流程。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。