阿里推出全新多模态AI代理:可模拟人类操作手机

阿里巴巴与北京交通大学共同研发了一款名为 Mobile-Agent 的多模态AI代理,这款AI可以模拟人类操作手机。Mobile-Agent 利用人工智能技术,特别是大型语言模型如GPT-4V,实现移动设备的自主决策和交互。

Mobile-Agent 的工作原理主要依赖于视觉感知工具,它可以准确识别和定位手机应用程序的前端界面中的视觉和文本元素。基于感知到的视觉上下文,Mobile-Agent 能够自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。

实验结果显示,Mobile-Agent 具有很高的准确率和完成率。即使面对多应用程序操作的复杂指令,Mobile-Agent 仍然能够完成。

Mobile-Agent 的独特之处在于:

  • 纯可视化解决方案,独立于 XML 和系统元数据。
  • 操作范围不受限制,支持多应用操作。
  • 配备多种视觉感知工具,用于操作定位。
  • 即插即用,无需探索和培训。

在未来 Mobile-Agent 的应用场景可能包括自动化测试、用户行为模拟、移动应用优化等。这款AI代理的推出将为移动应用开发、测试和优化提供全新的解决方案,并有望提升用户体验。

本文来自用户或匿名投稿,不代表大众智能立场;本文所有内容(包括图片、视频等)版权均为原作者所有。涉及的相关问题请查阅本站免责声明,如侵权请及时与本站运营方取得联系(联系我们)我们将按声明中的处理方式进行处理。本文链接:https://dzzn.com/2024/3080.html

(0)
上一篇 2024年2月4日 上午8:15
下一篇 2024年2月4日 下午6:44

相关推荐

发表回复

登录后才能评论