PhoneAgent是基于OpenAI模型的iPhone智能代理,能够像真实用户一样操作手机应用,完成各种任务。
操作示例
• 将自拍的照片和周末的安排发送给指定的联系人
• 从App Store下载指定的应用
• 向联系人发送包含航班信息的消息
• 打开控制中心,启用手机自带的手电筒
交互方式 • 支持文本和语音来输入指令,点击麦克风按钮就可以进行语音交互
• 有可选的“始终开启”模式,开启后PhoneAgent会在后台运行。能通过唤醒词(默认“Agent”)监听指令,例如“Agent,打开设置”
• 通过回复完成通知,并对任务进行跟进,了解任务进度
PhoneAgent技术特性
• 模型能实现点击、滑动、滚动、输入文本和打开应用等操作
• 使用Xcode的UI测试工具和系统及应用交互(无需越狱),通过TCP服务器在宿主应用和UI测试之间触发指令
1、clone代码仓库到本地
2、用Xcode打开项目
3、打开PhoneAgentUITests.swift
文件,运行testLoop
函数
4、将你的OpenAI API密钥复制到项目中,输入文本和语音指令就可以开始了
实现原理
利用iOS应用的沙盒机制,通过Xcode UI测试框架检查和操作应用,代理由OpenAI的gpt-4.1模型来驱动,主要通过以下工具来与手机设备进行交互:
• 获取当前应用内容
• 点击UI元素
• 在输入框中输入内容
• 打开应用
文件名 | 说明 |
---|---|
PhoneAgent.xcodeproj |
Xcode项目文件 |
PhoneAgent |
主应用代码 |
PhoneAgentUITests |
UI测试代码 |
.gitignore |
Git忽略配置 |
LICENSE |
MIT许可证文件 |
README.md |
项目说明文档 |
demo.MOV |
演示视频文件 |