Skip to the content.

Pocket Agent 文档总结

原文档地址:https://pocketagent-web.vercel.app/docs

一、产品概述

Pocket Agent 是一款 macOS 菜单栏 AI 助手,口号是”Your AI bestie that actually does stuff”。它不仅能聊天,还能执行实际操作:订机票、填表单、浏览网页、发消息、控制智能家居等。所有数据存储在本地 SQLite 数据库,API 密钥通过系统钥匙串加密,隐私优先。

系统要求: macOS 12.0+,需要 Anthropic 或 Moonshot API 密钥。


二、核心架构

2.1 LLM 模型支持

模型 特点
Opus 4.5 最强能力(推荐)
Sonnet 4.5 速度与质量平衡
Haiku 4.5 最快响应
Kimi K2.5 需 Moonshot 密钥

支持 Extended Thinking(扩展思考) 四档调节:None / Minimal / Normal / Extended,控制推理深度。

2.2 认证方式

修改模型后需点击 Reboot 生效。


三、记忆系统(Memory)

Pocket Agent 最核心的差异化能力。

3.1 自适应学习(My Approach)

Agent 在对话中自动学习用户偏好,无需手动配置。学习维度包括:

用户可在 My Approach 界面查看、删除已学习的内容,也可直接对话纠正。

3.2 向量记忆检索

设置 默认值 说明
Embeddings Provider OpenAI 向量嵌入提供商
Vector Weight 0.7 语义相似度权重
Keyword Weight 0.3 关键词匹配权重
Min Score 0.35 最低相关性阈值
Max Results 6 每次检索最大结果数

四、个性化配置(Personalize)

三大配置模块:

4.1 Who Am I — 定义 Agent 身份

4.2 My Playbook — 行为规则

4.3 About You — 个人信息

姓名、职业、位置、时区、生日、兴趣爱好等,用于个性化响应。


五、浏览器自动化(Browser)

两种模式

模式 特点
Electron(默认) 隐藏窗口运行,无需配置,支持 JS 渲染和截图
Chrome CDP 连接真实 Chrome,使用已登录的会话,多标签页管理

核心能力

推荐设置

内置启动器一键启动:Settings → Browser → 选择浏览器 → Launch Browser → 等待 Connected 状态。


六、Telegram 集成

实现”同一个大脑,随处可用”。

设置步骤

  1. Telegram 搜索 @BotFather → /newbot 创建机器人
  2. 复制 Bot Token 粘贴到 Pocket Agent 设置
  3. 使用 @userinfobot 获取用户 ID 并设置白名单

关键命令

命令 功能
/new 清除对话历史(保留记忆和提醒)
/model 查看/切换模型
/status 查看统计信息
/facts 浏览/搜索 Agent 记忆
/link 将群组关联到聊天会话

群组聊天

创建与 Pocket Agent 中聊天标签同名的 Telegram 群组,消息会自动同步到对应标签页。需关闭 BotFather 中的 Group Privacy 模式。


七、提醒与工作流

7.1 提醒(Reminders)

支持自然语言设置,格式包括:

7.2 自动化工作流(Routines)

将多个动作链式组合的自动化流程。支持的动作类型:

类型 说明
Check 读取邮件、消息、订阅源
Search 搜索网络信息
Analyze 处理和理解数据
Summarize 提炼关键要点
Notify 通过 Telegram 等发送通知
Save 保存到笔记、文件等

示例:“每天早上 8 点,检查邮件并总结优先事项”


八、超能力(Superpowers)— 40+ 集成

通过 Skills Lab 一键安装,涵盖:

类别 集成
通讯 iMessage、WhatsApp、Slack、Discord
Google 全家桶 Gmail、Calendar、Drive、Docs、Sheets、Contacts
笔记与任务 Apple Notes/Reminders、Things 3、Obsidian、Bear、Notion、Trello
音乐与媒体 Spotify、Sonos、Song ID
智能家居 Philips Hue、Bluetooth
开发者 GitHub、Tmux
AI 生成 DALL-E 图像生成、Whisper 语音转文字、ElevenLabs 文字转语音
工具 天气、1Password、相机、截图、PDF、地点搜索

九、API 密钥一览

服务 用途 格式
Anthropic 主 LLM sk-ant-...
OpenAI 记忆嵌入 sk-...
Gemini 备选 LLM AIza...
Google Places 位置服务 AIza...
Notion 笔记集成 secret_...
Trello 看板集成 Key + Token
ElevenLabs 文字转语音 32 字符

所有密钥本地加密存储,不会离开用户设备。


十、快捷键

快捷键 功能
⌥ + Z 全局唤起 Pocket Agent
⌘ + , 打开设置
⌘ + K 清除聊天
Enter 发送消息
Shift + Enter 换行

总结

Pocket Agent 的核心价值在于:

  1. 持久记忆 — 不只是聊天,而是真正”记住”用户偏好和历史
  2. 自适应学习 — 越用越懂你,无需手动配置
  3. 浏览器自动化 — 可以使用你已登录的 Chrome 会话操作网页
  4. 40+ 集成 — 从 iMessage 到智能家居,覆盖日常生活全场景
  5. Telegram 同步 — 同一个 Agent,桌面和手机无缝切换
  6. 自动化工作流 — 定时任务和链式操作,解放重复劳动
  7. 隐私优先 — 全部数据本地存储,密钥加密保护

最后更新:2026-02-06