PokeClaw 项目介绍
项目概述
PokeClaw (PocketClaw) 是一个设备端 AI 手机自动化工具,基于 Gemma 4 模型构建,是第一个能够自主控制 Android 手机的本地 AI 应用。
整个流程在您的设备内形成闭环,不需要 WiFi,不需要云 API,也不需要月度账单。
其他人:手机 → 互联网 → 云端 API → 互联网 → 手机
💳需要信用卡、API key,还有月度账单
PokeClaw:手机 → LLM → 手机
就是这样。没有网络。没有 API key。没有账单。
AI 控制您的手机。而且它永远不会离开您的手机。
目前 GitHub 星标:⭐ 200 stars
核心功能
- 🔒 完全本地运行:模型运行在设备上,不联网,隐私安全
- 🤖 自主手机控制:LLM 自主选择工具并执行操作
- 💬 上下文感知自动回复:读取聊天上下文,智能回复消息
- ⚙️ 无云依赖:不需要 API key,没有月度费用
- 🛠️ 完整工具集:点击、滑动、输入、打开应用、发送消息等
- 📱 通用技能系统:可复用的工作流,适用于任何应用
- ☁️ 可选云端支持:v0.3.0 新增支持 OpenAI、Anthropic、Google 等云端 LLM
工作原理
PokeClaw 为设备端 LLM 提供了一套工具(点击、滑动、输入、打开应用、发送消息、启用自动回复等),让 LLM 决定做什么。LLM 看到当前屏幕的文本表示,选择一个操作,看到结果,再选择下一个操作,直到任务完成。
一切都通过 LiteRT-LM 本地运行,支持原生工具调用。模型从不与云端通信。
可用工具
LLM 可以自主选择以下工具:
| 工具 | 功能 |
|---|---|
tap / swipe / long_press | 触摸屏幕 |
input_text | 在任意文本字段输入 |
open_app | 启动任意已安装应用 |
send_message | 完整消息流程:打开应用、找到联系人、输入、发送 |
auto_reply | 监控联系人并使用 LLM 自动回复 |
get_screen_info | 读取当前 UI 树 |
take_screenshot | 截屏 |
finish | 表示任务完成 |
这些工具是通用的 — 它们适用于任何应用、任何联系人、任何语言。LLM 选择正确的工具并根据您的请求填写参数。
技能系统
2.3B 的设备端模型不是 GPT-4。它能很好地遵循指令,但不擅长自己想出使用哪些工具。所以我们给它一个剧本。
自动回复功能就是一个很好的例子。它不是靠魔法工作的 — 背后有一个预定义的工作流:打开聊天 → 读取屏幕上所有可见消息 → 生成上下文感知的回复 → 发送 → 返回主页。模型一步一步地遵循这个配方。该链中的每个工具都是通用的:open_app 适用于任何应用,read_screen 适用于任何屏幕,send_message 适用于任何联系人。工作流只是告诉模型使用哪些工具以及按什么顺序。
这就是我们所说的 技能 — 由通用工具构建的可复用工作流。我们正在积极设计一个受 Claude Code 技能架构 启发的技能系统。理念是:任何人都可以将技能编写为简单的文本文件来描述步骤,LLM 就会遵循它。
技能可以做的一些例子:
- 自动回复:监控通知 → 打开聊天 → 阅读对话 → 生成回复 → 发送
- 晨间简报:打开天气应用 → 读取温度 → 打开日历 → 阅读今天的事件 → 打开邮件 → 统计未读 → 总结一切
- 智能转发:捕捉通知 → 打开消息 → 阅读 → 转发给另一个联系人并附带摘要
- 自动预订:打开预订应用 → 搜索时间槽 → 填写详细信息 → 确认
每个技能只是相同通用工具(open_app、tap、type、read_screen、send_message 等)以特定顺序的组合。工具是构建块,技能是食谱。
两者都设计为可扩展的。我们正在构建前 8-10 个技能作为内置默认值。如果系统运行良好,我们将开放它,让社区创建和分享他们自己的工具和技能。您比我们更了解您的手机 — 您应该能够教它新的技巧。
随着设备端模型变得更智能,技能变得不那么必要。未来的 7B 或 13B 模型可能会自己找出正确的工作流。在那之前,技能是我们从小型本地模型获得可靠自动化的方式。把它想象成模型最终会长大的辅助轮。
技术栈
- AI 模型:Gemma 4 (2.3B)
- 推理引擎:LiteRT-LM
- 开发语言:Kotlin
- 平台:Android
- 可选云端 LLM:OpenAI、Anthropic、Google、OpenAI 兼容 API
快速开始
系统要求
| 最低配置 | 推荐配置 | |
|---|---|---|
| Android | 9+ | 12+ |
| 架构 | arm64 | arm64 |
| 内存 | 8 GB | 12 GB+ |
| 存储 | 3 GB 可用(模型下载) | 5 GB+ |
| GPU | 不需要(CPU 可用) | Tensor G3/G4、Snapdragon 8 Gen 2+、Dimensity 9200+ |
| Root | 不需要 | 不需要 |
⚠️ 8 GB 是最低要求,但在某些设备上可能仍会崩溃,具体取决于还在运行什么。12 GB+ 比较舒适。如果应用在模型加载期间崩溃,请关闭其他应用并重试。如果仍然崩溃,您的手机没有足够的可用内存来运行 2.3B 模型。这是硬件限制,不是 bug。
安装步骤
- 安装 APK:从 最新发布 下载
- 授予权限:提示时授予无障碍权限
- 下载模型:首次启动时模型会自动下载(约 2.6 GB)
- 开始使用:切换到任务模式,输入您想要做的事情
没有 API key。没有云端配置。没有账户。
项目演示
自动回复演示
PokeClaw 监控来自妈妈的消息,读取她说了什么,并使用设备端 LLM 根据上下文回复。
上下文感知演示
妈妈问「我让你带什么了?」—— AI 打开聊天,阅读屏幕上的完整对话,看到之前关于酒的消息,并正确回复。这就是上下文感知回复和无上下文回复的区别。
开发故事
我是一名独立开发者。当 Gemma 4 在 4 月 2 日发布,带有 LiteRT-LM 上的原生工具调用时,我熬了两个通宵,从零开始构建了这个项目。这是第一个可以在手机上运行的本地 LLM,并且足够强大来处理真正复杂的任务 — 对话、根据上下文自动回复妈妈、自主导航应用。这对我来说很令人兴奋。
它并不完美。本地 LLM 不如云端模型聪明,而且有很多粗糙的边缘。硬件就是这样 — 我们无法让您的 CPU 变快。但在软件方面,我们正在积极改进架构、工具系统和整体设计。云端 LLM 支持将作为可选功能推出,供想要更多能力的人使用。
而且它是完全免费的。没有每月向您收费的 API key。没有订阅。没有使用限制。模型在您的硬件上运行,不花您一分钱。
我们正经历着历史性的转变。本地 LLM 现在足够聪明,可以在手机上真正做有用的工作。6 个月前还不是这样。设备端模型快速变得更聪明,我们希望不久之后它们就能完全弥合与云端模型的差距。当那一天到来时,PokeClaw 已经准备好了。
这个项目有很多问题。这是预期的。请打开它们。 每个错误报告都让这变得更好。
版本更新
v0.3.1 (2026-04-07)
- 安全修复:LAN 配置服务器绑定到所有网络接口,向同一 WiFi 上的任何人暴露 API key。现在仅绑定到 localhost。
- 移除未使用的频道:移除了钉钉、飞书和 QQ 频道集成。更小的 APK,更干净的代码库。
- 死代码清理:移除了旧的基于 View 的聊天 UI、未使用的布局和孤立资源。
v0.3.0 (2026-04-07)
- 云端 LLM 支持:聊天和任务模式现在支持 OpenAI、Anthropic、Google 和任何 OpenAI 兼容 API。在新的标签式 LLM 配置屏幕中一键切换提供商。
- 实时 token 和成本显示:在聊天时在聊天标题中查看您的 token 数量和运行成本。随着使用量攀升,颜色从灰色变为蓝色变为琥珀色变为红色。没有其他移动 AI 应用向您显示这一点。
- 每个提供商的 API key:为每个提供商存储不同的 API key。切换标签会自动加载正确的 key。
- 会话中途模型切换:用 GPT-4o 开始对话,在聊天中途切换到 Claude,并保留您的整个历史记录。新模型从旧模型停止的地方继续。
- 3 层管道路由器:简单命令(打电话、闹钟、打开应用)现在立即执行,零 LLM 调用。技能匹配的任务运行确定性步骤序列。只有复杂任务才会进入完整代理循环。
- 8 个内置技能:应用内搜索、关闭弹窗、滚动阅读、发送 WhatsApp、导航到标签等。每个技能通过运行硬编码的工具序列而不是从头推理,节省了 3-10 轮 LLM。
- 任务标签中的技能 UI:快速操作部分显示所有可用技能,带有分类图标。点击以预填充输入栏。
- Token 预算系统:为每个任务设置软限制和硬限制。浮动药丸显示实时 token 数量和成本,您可以点击以停止失控的任务。
- 卡住检测:五个信号检测代理何时陷入循环:重复操作、未更改的屏幕、上升的 token 数量。三级恢复从提示升级到策略切换再到自动终止。
- Enter 和 Tab 键支持:技能现在可以按 Enter 提交搜索查询,按 Tab 在表单字段之间移动。
总结
PokeClaw 是一个开创性的设备端 AI 手机自动化项目,具有以下优势:
- 隐私安全:完全本地运行,不联网
- 免费使用:无 API key,无月度费用
- 功能强大:自主选择工具,完成复杂任务
- 技能系统:可复用的工作流,适用于各种场景
- 持续发展:活跃开发,快速迭代
项目链接
许可证
PokeClaw 使用 Apache License 2.0