首页 > AI教程评测 > AI工具评测

ShowUI是什么？一文让你看懂ShowUI的技术原理、主要功能、应用场景

发布时间：2025-04-05

关键字：

ShowUI ShowUI主要功能 ShowUI技术原理

ShowUI概述简介

ShowUI是新加坡国立大学Show Lab和微软一起推出的视觉-语言-行动模型，能提升图形用户界面（GUI）助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本，用交错视觉-语言-行动流统一GUI任务中的多样化需求，并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集，用256K数据实现75.1%的零样本截图定位准确率，训练速度提升1.4倍，展现出在GUI视觉代理领域的潜力。

ShowUI的功能特色

UI引导的视觉令牌选择：将屏幕截图构建为UI连接图，自适应地识别冗余关系，在自注意力模块中作为选择令牌的标准，减少计算成本。

交错视觉-语言-行动流：灵活地统一GUI任务中的多样化需求，有效管理视觉-行动历史，提高训练效率。

小规模高质量GUI指令跟随数据集：基于精心策划数据和采用重采样策略解决数据类型不平衡的问题，提高模型的准确性和效率。

零样本截图定位：在没有额外训练的情况下，直接对屏幕截图进行理解和操作的能力。

GUI自动化：自动化执行GUI任务，如点击、输入等，提高人机交互效率。

ShowUI的技术原理

UI引导的视觉令牌选择：

将屏幕截图分割成规则的补丁（patches），每个补丁作为一个节点。

识别具有相同RGB值的相邻补丁，构建UI连接图，将视觉冗余区域组合起来。

在自注意力模块中，基于UI连接图选择性地处理视觉令牌，减少计算量。

交错视觉-语言-行动流：

结构化GUI动作，以JSON格式表示，统一不同设备上的动作。

基于交替处理视觉、语言和行动数据，管理复杂的交互历史。

在训练中，用多轮对话方式，提高数据利用效率。

数据策划和重采样策略：

精心策划和选择高质量的训练数据，而不是简单地聚合所有可用数据源。

基于重采样策略，解决不同设备和任务类型之间的数据不平衡问题。

高效处理高分辨率UI截图：针对高分辨率UI截图，优化模型以有效处理长令牌序列，减少计算成本。

模型架构：

基于Qwen2-VL-2B模型，整合视觉编码器和语言大模型，处理视觉和文本数据。

基于特定的数据食谱和训练策略，提高模型在GUI任务中的性能。

ShowUI项目介绍

GitHub仓库：https://github.com/showlab/ShowUI

HuggingFace模型库：https://huggingface.co/datasets/showlab/ShowUI-desktop-8K

arXiv技术论文：https://arxiv.org/pdf/2411.17465

在线体验Demo：https://huggingface.co/spaces/showlab/ShowUI

ShowUI能做什么？

网页自动化：自动执行网页上的点击、输入、滚动等操作，用在自动化测试、数据抓取或模拟用户行为。

移动应用测试：在移动应用中自动化执行各种用户交互，如滑动、点击、填写表单等，进行应用功能测试。

桌面软件自动化：自动化桌面软件中的重复性任务，如文件管理、数据输入、设置调整等。

虚拟助手：作为虚拟助手的一部分，根据用户的自然语言指令执行特定的GUI操作。

游戏自动化：在支持自动化脚本的游戏中，自动执行角色移动、物品拾取、战斗等操作。

Qwen2vl-Flux是什么？一文让你看懂Qwen2vl-Flux的技术原理、主要功能、应用场景

NVLM是什么？一文让你看懂NVLM的技术原理、主要功能、应用场景

更多+

卓商AI

AI爱好者的一站式人工智能AI工具箱，累计收录全球10,000⁺好用的AI工具软件和网站，方便您更便捷的探索前沿的AI技术。本站持续更新好的AI应用，力争做全球排名前三的AI网址导航网站，欢迎您成为我们的一员。

猜你喜欢

更多+

citationgenerator ai 用CitationGenerator.ai增强您的学术写作！通过我们的高级释义和AI检测工具确保原创性，轻松生成准确的APA和MLA引用。告别乏味的格...

FineVoice FineVoice是一个多功能的AI配音平台，它使用先进的人工智能技术，为用户提供逼真的个性化语音服务。这个平台不仅可以将文本转换为自然逼真的声音，还...

VividTalk VividTalk是一种一次性音频驱动的头像生成技术，基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段...

calisthenicsworkoutplan 使用健美操锻炼计划解锁您的健身潜力！我们的AI驱动算法根据您的目标和经验创建了个性化的锻炼计划。抛弃一般的例程，并通过我们的免费层进行有效的体重锻炼，...

雷鸟RayNeo AI RayNeo AI是雷鸟自主研发的人工智能语音助手,集成了自然语言处理、语音识别、语音合成等核心技术,可实现自然语言交互、语音控制等功能。该产品已在雷...

flux ai top 用Flux-ai.top创建令人惊叹的AI图像，由Flux.1 Black Forest Labs提供动力。 Flux.1 Pro，Dev和Schne...

softr ai app generator 体验SOFTR AI应用程序生成器的功能，只需一个提示即可快速创建业务应用程序。仅需单击几下即可获得Intranet，客户端门户或内部工具所需的所有功...

ailyze 作为定性研究的行业领先的AI工具，Ailyze提供了专家级的主题分析，并详细介绍了上传的文件，例如访谈成绩单和报告。借助其免费的层次选项，用户可以轻松...

热门标签

AI人工智能人工智能应用人工智能 AI热门事件 AI名人 AI专业术语 AI知识百科 AI知识大全 AI知识 AI应用评测网 AI应用评测 AI软件哪个好用 AI工具哪个好用 AI软件哪个好 AI软件评测-AI工具哪个好 AI工具评测 AI完整版教程 AI新手教程 AI工具完整教程 AI工具新手入门教程 AI工具使用教程 AI入门教程 AI工具教程国内AI模型国内大模型国产AI模型国产AI大模型国产大模型国外AI工具大全国内AI工具大全

隐私策略免责条款服务协议关于我们