PhoneAgent是基于OpenAI模型的iPhone智能代理,能够像真实用户一样操作手机应用,完成各种任务。

操作示例

• 将自拍的照片和周末的安排发送给指定的联系人

• 从App Store下载指定的应用

• 向联系人发送包含航班信息的消息

• 打开控制中心,启用手机自带的手电筒

交互方式 • 支持文本和语音来输入指令,点击麦克风按钮就可以进行语音交互

• 有可选的“始终开启”模式,开启后PhoneAgent会在后台运行。能通过唤醒词(默认“Agent”)监听指令,例如“Agent,打开设置”

• 通过回复完成通知,并对任务进行跟进,了解任务进度

PhoneAgent技术特性

• 模型能实现点击、滑动、滚动、输入文本和打开应用等操作

• 使用Xcode的UI测试工具和系统及应用交互(无需越狱),通过TCP服务器在宿主应用和UI测试之间触发指令

PhoneAgent使用指南

1、clone代码仓库到本地

2、用Xcode打开项目

3、打开PhoneAgentUITests.swift文件,运行testLoop函数

4、将你的OpenAI API密钥复制到项目中,输入文本和语音指令就可以开始了

实现原理

利用iOS应用的沙盒机制,通过Xcode UI测试框架检查和操作应用,代理由OpenAI的gpt-4.1模型来驱动,主要通过以下工具来与手机设备进行交互:

• 获取当前应用内容

• 点击UI元素

• 在输入框中输入内容

• 打开应用

文件结构

文件名 说明
PhoneAgent.xcodeproj Xcode项目文件
PhoneAgent 主应用代码
PhoneAgentUITests UI测试代码
.gitignore Git忽略配置
LICENSE MIT许可证文件
README.md 项目说明文档
demo.MOV 演示视频文件