跳转到内容
回响之地
返回

PokeClaw 项目介绍 - 设备端 AI 手机自动化

PokeClaw 项目介绍

项目概述

PokeClaw (PocketClaw) 是一个设备端 AI 手机自动化工具,基于 Gemma 4 模型构建,是第一个能够自主控制 Android 手机的本地 AI 应用。

整个流程在您的设备内形成闭环,不需要 WiFi,不需要云 API,也不需要月度账单。

其他人:手机 → 互联网 → 云端 API → 互联网 → 手机
 💳需要信用卡、API key,还有月度账单

PokeClaw:手机 → LLM → 手机
 就是这样。没有网络。没有 API key。没有账单。

AI 控制您的手机。而且它永远不会离开您的手机。

目前 GitHub 星标:⭐ 200 stars

核心功能

工作原理

PokeClaw 为设备端 LLM 提供了一套工具(点击、滑动、输入、打开应用、发送消息、启用自动回复等),让 LLM 决定做什么。LLM 看到当前屏幕的文本表示,选择一个操作,看到结果,再选择下一个操作,直到任务完成。

一切都通过 LiteRT-LM 本地运行,支持原生工具调用。模型从不与云端通信。

可用工具

LLM 可以自主选择以下工具:

工具功能
tap / swipe / long_press触摸屏幕
input_text在任意文本字段输入
open_app启动任意已安装应用
send_message完整消息流程:打开应用、找到联系人、输入、发送
auto_reply监控联系人并使用 LLM 自动回复
get_screen_info读取当前 UI 树
take_screenshot截屏
finish表示任务完成

这些工具是通用的 — 它们适用于任何应用、任何联系人、任何语言。LLM 选择正确的工具并根据您的请求填写参数。

技能系统

2.3B 的设备端模型不是 GPT-4。它能很好地遵循指令,但不擅长自己想出使用哪些工具。所以我们给它一个剧本。

自动回复功能就是一个很好的例子。它不是靠魔法工作的 — 背后有一个预定义的工作流:打开聊天 → 读取屏幕上所有可见消息 → 生成上下文感知的回复 → 发送 → 返回主页。模型一步一步地遵循这个配方。该链中的每个工具都是通用的:open_app 适用于任何应用,read_screen 适用于任何屏幕,send_message 适用于任何联系人。工作流只是告诉模型使用哪些工具以及按什么顺序。

这就是我们所说的 技能 — 由通用工具构建的可复用工作流。我们正在积极设计一个受 Claude Code 技能架构 启发的技能系统。理念是:任何人都可以将技能编写为简单的文本文件来描述步骤,LLM 就会遵循它。

技能可以做的一些例子:

每个技能只是相同通用工具(open_apptaptyperead_screensend_message 等)以特定顺序的组合。工具是构建块,技能是食谱。

两者都设计为可扩展的。我们正在构建前 8-10 个技能作为内置默认值。如果系统运行良好,我们将开放它,让社区创建和分享他们自己的工具和技能。您比我们更了解您的手机 — 您应该能够教它新的技巧。

随着设备端模型变得更智能,技能变得不那么必要。未来的 7B 或 13B 模型可能会自己找出正确的工作流。在那之前,技能是我们从小型本地模型获得可靠自动化的方式。把它想象成模型最终会长大的辅助轮。

技术栈

快速开始

系统要求

最低配置推荐配置
Android9+12+
架构arm64arm64
内存8 GB12 GB+
存储3 GB 可用(模型下载)5 GB+
GPU不需要(CPU 可用)Tensor G3/G4、Snapdragon 8 Gen 2+、Dimensity 9200+
Root不需要不需要

⚠️ 8 GB 是最低要求,但在某些设备上可能仍会崩溃,具体取决于还在运行什么。12 GB+ 比较舒适。如果应用在模型加载期间崩溃,请关闭其他应用并重试。如果仍然崩溃,您的手机没有足够的可用内存来运行 2.3B 模型。这是硬件限制,不是 bug。

安装步骤

  1. 安装 APK:从 最新发布 下载
  2. 授予权限:提示时授予无障碍权限
  3. 下载模型:首次启动时模型会自动下载(约 2.6 GB)
  4. 开始使用:切换到任务模式,输入您想要做的事情

没有 API key。没有云端配置。没有账户。

项目演示

自动回复演示

PokeClaw 监控来自妈妈的消息,读取她说了什么,并使用设备端 LLM 根据上下文回复。

上下文感知演示

妈妈问「我让你带什么了?」—— AI 打开聊天,阅读屏幕上的完整对话,看到之前关于酒的消息,并正确回复。这就是上下文感知回复和无上下文回复的区别。

开发故事

我是一名独立开发者。当 Gemma 4 在 4 月 2 日发布,带有 LiteRT-LM 上的原生工具调用时,我熬了两个通宵,从零开始构建了这个项目。这是第一个可以在手机上运行的本地 LLM,并且足够强大来处理真正复杂的任务 — 对话、根据上下文自动回复妈妈、自主导航应用。这对我来说很令人兴奋。

它并不完美。本地 LLM 不如云端模型聪明,而且有很多粗糙的边缘。硬件就是这样 — 我们无法让您的 CPU 变快。但在软件方面,我们正在积极改进架构、工具系统和整体设计。云端 LLM 支持将作为可选功能推出,供想要更多能力的人使用。

而且它是完全免费的。没有每月向您收费的 API key。没有订阅。没有使用限制。模型在您的硬件上运行,不花您一分钱。

我们正经历着历史性的转变。本地 LLM 现在足够聪明,可以在手机上真正做有用的工作。6 个月前还不是这样。设备端模型快速变得更聪明,我们希望不久之后它们就能完全弥合与云端模型的差距。当那一天到来时,PokeClaw 已经准备好了。

这个项目有很多问题。这是预期的。请打开它们 每个错误报告都让这变得更好。

版本更新

v0.3.1 (2026-04-07)

v0.3.0 (2026-04-07)

总结

PokeClaw 是一个开创性的设备端 AI 手机自动化项目,具有以下优势:

项目链接

许可证

PokeClaw 使用 Apache License 2.0



Previous Post
t2g³ 体系电子微观排布分析
Next Post
ReClip 项目介绍 - 开源视频音频下载器