Pocket Agent 文档总结
一、产品概述
Pocket Agent 是一款 macOS 菜单栏 AI 助手,口号是”Your AI bestie that actually does stuff”。它不仅能聊天,还能执行实际操作:订机票、填表单、浏览网页、发消息、控制智能家居等。所有数据存储在本地 SQLite 数据库,API 密钥通过系统钥匙串加密,隐私优先。
系统要求: macOS 12.0+,需要 Anthropic 或 Moonshot API 密钥。
二、核心架构
2.1 LLM 模型支持
| 模型 | 特点 |
|---|---|
| Opus 4.5 | 最强能力(推荐) |
| Sonnet 4.5 | 速度与质量平衡 |
| Haiku 4.5 | 最快响应 |
| Kimi K2.5 | 需 Moonshot 密钥 |
支持 Extended Thinking(扩展思考) 四档调节:None / Minimal / Normal / Extended,控制推理深度。
2.2 认证方式
- Anthropic:OAuth 登录或 API Key(
sk-ant-...) - Kimi/Moonshot:API Key(
platform.moonshot.ai)
修改模型后需点击 Reboot 生效。
三、记忆系统(Memory)
Pocket Agent 最核心的差异化能力。
3.1 自适应学习(My Approach)
Agent 在对话中自动学习用户偏好,无需手动配置。学习维度包括:
- 沟通风格:简洁 vs 详细、正式 vs 随意、是否使用 emoji
- 边界:用户不想讨论的话题、设定的限制
- 关系:互动方式和默契的积累
- 习惯偏好:独特的喜好、习惯和行为模式
用户可在 My Approach 界面查看、删除已学习的内容,也可直接对话纠正。
3.2 向量记忆检索
| 设置 | 默认值 | 说明 |
|---|---|---|
| Embeddings Provider | OpenAI | 向量嵌入提供商 |
| Vector Weight | 0.7 | 语义相似度权重 |
| Keyword Weight | 0.3 | 关键词匹配权重 |
| Min Score | 0.35 | 最低相关性阈值 |
| Max Results | 6 | 每次检索最大结果数 |
四、个性化配置(Personalize)
三大配置模块:
4.1 Who Am I — 定义 Agent 身份
- 名称、性格特征、沟通风格、语气
- 示例:创建名为”Jarvis”的助手,设定为”机智且有帮助”的风格
4.2 My Playbook — 行为规则
- 任务处理方式(邮件、日程、研究)
- 确认机制(何时需要用户批准)
- 默认行为和响应格式
- 边界(始终做/绝不做的事情)
4.3 About You — 个人信息
姓名、职业、位置、时区、生日、兴趣爱好等,用于个性化响应。
五、浏览器自动化(Browser)
两种模式
| 模式 | 特点 |
|---|---|
| Electron(默认) | 隐藏窗口运行,无需配置,支持 JS 渲染和截图 |
| Chrome CDP | 连接真实 Chrome,使用已登录的会话,多标签页管理 |
核心能力
- 导航 URL、点击元素、输入文字、截图
- 执行 JavaScript、提取页面内容、滚动、悬停
- 文件下载/上传
- Chrome 模式独有:访问已登录会话、多标签页工作流
推荐设置
内置启动器一键启动:Settings → Browser → 选择浏览器 → Launch Browser → 等待 Connected 状态。
六、Telegram 集成
实现”同一个大脑,随处可用”。
设置步骤
- Telegram 搜索 @BotFather →
/newbot创建机器人 - 复制 Bot Token 粘贴到 Pocket Agent 设置
- 使用 @userinfobot 获取用户 ID 并设置白名单
关键命令
| 命令 | 功能 |
|---|---|
/new |
清除对话历史(保留记忆和提醒) |
/model |
查看/切换模型 |
/status |
查看统计信息 |
/facts |
浏览/搜索 Agent 记忆 |
/link |
将群组关联到聊天会话 |
群组聊天
创建与 Pocket Agent 中聊天标签同名的 Telegram 群组,消息会自动同步到对应标签页。需关闭 BotFather 中的 Group Privacy 模式。
七、提醒与工作流
7.1 提醒(Reminders)
支持自然语言设置,格式包括:
- 具体时间:
at 5pm、at 14:30 - 相对时间:
in 30 minutes、in 2 hours - 日期:
tomorrow、next Friday - 循环:
every day、every Monday、every morning
7.2 自动化工作流(Routines)
将多个动作链式组合的自动化流程。支持的动作类型:
| 类型 | 说明 |
|---|---|
| Check | 读取邮件、消息、订阅源 |
| Search | 搜索网络信息 |
| Analyze | 处理和理解数据 |
| Summarize | 提炼关键要点 |
| Notify | 通过 Telegram 等发送通知 |
| Save | 保存到笔记、文件等 |
示例:“每天早上 8 点,检查邮件并总结优先事项”
八、超能力(Superpowers)— 40+ 集成
通过 Skills Lab 一键安装,涵盖:
| 类别 | 集成 |
|---|---|
| 通讯 | iMessage、WhatsApp、Slack、Discord |
| Google 全家桶 | Gmail、Calendar、Drive、Docs、Sheets、Contacts |
| 笔记与任务 | Apple Notes/Reminders、Things 3、Obsidian、Bear、Notion、Trello |
| 音乐与媒体 | Spotify、Sonos、Song ID |
| 智能家居 | Philips Hue、Bluetooth |
| 开发者 | GitHub、Tmux |
| AI 生成 | DALL-E 图像生成、Whisper 语音转文字、ElevenLabs 文字转语音 |
| 工具 | 天气、1Password、相机、截图、PDF、地点搜索 |
九、API 密钥一览
| 服务 | 用途 | 格式 |
|---|---|---|
| Anthropic | 主 LLM | sk-ant-... |
| OpenAI | 记忆嵌入 | sk-... |
| Gemini | 备选 LLM | AIza... |
| Google Places | 位置服务 | AIza... |
| Notion | 笔记集成 | secret_... |
| Trello | 看板集成 | Key + Token |
| ElevenLabs | 文字转语音 | 32 字符 |
所有密钥本地加密存储,不会离开用户设备。
十、快捷键
| 快捷键 | 功能 |
|---|---|
| ⌥ + Z | 全局唤起 Pocket Agent |
| ⌘ + , | 打开设置 |
| ⌘ + K | 清除聊天 |
| Enter | 发送消息 |
| Shift + Enter | 换行 |
总结
Pocket Agent 的核心价值在于:
- 持久记忆 — 不只是聊天,而是真正”记住”用户偏好和历史
- 自适应学习 — 越用越懂你,无需手动配置
- 浏览器自动化 — 可以使用你已登录的 Chrome 会话操作网页
- 40+ 集成 — 从 iMessage 到智能家居,覆盖日常生活全场景
- Telegram 同步 — 同一个 Agent,桌面和手机无缝切换
- 自动化工作流 — 定时任务和链式操作,解放重复劳动
- 隐私优先 — 全部数据本地存储,密钥加密保护
最后更新:2026-02-06