html5网站开发实例教程,wordpress插件代码,网站短信验证码接口怎么做,h5网站有哪些uitars_v1_grounding 并不是一个独立的模型#xff0c;而是 UI-TARS 框架中用于特定任务的一种提示模板#xff08;prompt template#xff09;或推理模式#xff0c;专为“轻量级、纯动作输出”场景设计。一、本质说明UI-TARS 是字节跳动开源的一系列 原生 GUI 智能体模型…uitars_v1_grounding并不是一个独立的模型而是UI-TARS 框架中用于特定任务的一种提示模板prompt template或推理模式专为“轻量级、纯动作输出”场景设计。一、本质说明UI-TARS是字节跳动开源的一系列原生 GUI 智能体模型如 UI-TARS-2B、7B、72B 等基于视觉语言模型VLM构建。grounding在此语境下指的是界面元素定位Grounding能力——即模型根据屏幕截图和指令精准输出应点击/操作的坐标或 UI 元素。uitars_v1_grounding通常指使用 GROUNDING 提示模板 UI-TARS 基础模型如 UI-TARS-1.5 或 UI-TARS-7B的一种配置方式。二、GROUNDING 模板的核心特点来自知识库 [1][3][8][9]python编辑GROUNDING_DOUBAO You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task. ## Output Format Action: ... ## Action Space click(pointpointx1 y1/point) ## User Instruction {instruction} ✅ 特性仅输出动作Action不包含Thought推理过程。输出格式极简例如Action: click(pointpoint500 300/point)适用于模型训练与评估如 ScreenSpot-V2、ScreenSpotPro 基准快速原型开发自动化测试中的高吞吐动作生成三、性能表现关键数据在ScreenSpot-V2上达到94.2%的定位准确率在ScreenSpotPro上达到61.6%的平均分远超传统模块化方法如 SeeClick、OS-Atlas 等注这些成绩通常由UI-TARS-1.5 或 UI-TARS-7B 模型 GROUNDING 模板实现。四、使用场景 vs 其他模板表格模板类型是否含推理Thought适用场景COMPUTER_USE是桌面复杂任务带多步推理MOBILE_USE是移动端操作长按、返回等GROUNDING❌ 否模型评估、轻量动作生成、基准测试五、总结uitars_v1_grounding不是一个单独的模型而是 UI-TARS 系列模型在“纯动作输出”模式下的标准配置使用 GROUNDING 提示模板专注于高精度、低延迟的 GUI 元素定位与操作生成。它代表了 UI-TARS 在自动化评估和高效执行场景下的最佳实践是研究 GUI Grounding 能力的黄金标准之一。如需使用可通过以下方式调用bash编辑pip install ui-tars并在代码中加载GROUNDING_DOUBAO模板位于codes/ui_tars/prompt.py。