阿里巴巴与北京交通大学共同研发了一款名为 Mobile-Agent 的多模态AI代理,这款AI可以模拟人类操作手机。Mobile-Agent 利用人工智能技术,特别是大型语言模型如GPT-4V,实现移动设备的自主决策和交互。
Mobile-Agent 的工作原理主要依赖于视觉感知工具,它可以准确识别和定位手机应用程序的前端界面中的视觉和文本元素。基于感知到的视觉上下文,Mobile-Agent 能够自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。
实验结果显示,Mobile-Agent 具有很高的准确率和完成率。即使面对多应用程序操作的复杂指令,Mobile-Agent 仍然能够完成。
Mobile-Agent 的独特之处在于:
- 纯可视化解决方案,独立于 XML 和系统元数据。
- 操作范围不受限制,支持多应用操作。
- 配备多种视觉感知工具,用于操作定位。
- 即插即用,无需探索和培训。
在未来 Mobile-Agent 的应用场景可能包括自动化测试、用户行为模拟、移动应用优化等。这款AI代理的推出将为移动应用开发、测试和优化提供全新的解决方案,并有望提升用户体验。