AI Agent 入门完全指南
从「和 AI 聊天」到「AI 替你干活」——理解本地 Agent 工具的范式革命。 一篇讲清楚:为什么它们和 ChatGPT 网页版不是一回事、MCP/Skill/CLI 到底是什么、 Hermes / QwenPaw / Codex 怎么选。
1 范式革命:本地 Agent vs 网页聊天
理解这轮 AI 工具变革的关键,不在「模型更强了」,而在「模型能动手了」。
🖥️ 传统网页聊天
ChatGPT / 豆包 / Kimi / DeepSeek 网页版
- 只能聊,不能做。你问它答,对话结束就结束。
- 无文件系统权限。它看不到你的文件夹,不能读你的代码项目,不能操作你的本地文件。
- 无工具链。不能执行 shell 命令、不能控制浏览器、不能调用 API、不能定时任务。
- 无记忆延续。每次新会话从零开始,你反复交代同样的上下文。
- 你手动搬运。AI 给方案 → 你复制 → 粘贴到终端/编辑器 → 执行 → 报错 → 复制报错 → 贴回聊天框。循环往复。
🤖 本地 Agent 工具
Hermes Agent / QwenPaw / Codex CLI
- 能聊,更能做。AI 直接读写文件、执行命令、操作浏览器、发消息。
- 有完整文件系统权限。它「看到」你的项目结构,直接在正确的目录里操作。
- 有工具链。Shell、浏览器、API 调用、截图、定时任务——就像一个真正的操作系统级助手。
- 有持久记忆。跨会话记忆(MEMORY.md/AGENTS.md),不断积累对你的认知,越用越懂你。
- AI 自主闭环。给目标 → AI 规划 → 执行 → 读结果 → 修正 → 再执行 → 直到完成。你只需验收。
为什么这是质的飞跃?
打破「复制粘贴」循环
Agent 直接在你的终端里执行命令,读到报错自己修正,不再需要你把报错贴回去。这是效率提升最大的来源。
上下文即项目
Agent 可以看到你的整个项目目录结构,理解文件之间的关系。不需要你解释「我有个项目,目录是……」——它自己看。
从同步到异步
你可以给 Agent 一个任务然后去睡觉。它定时执行、后台运行、通过 Telegram 向你汇报进度。你不再需要「盯着它干活」。
越用越聪明
每次交互都被记录。它记住你的偏好、项目结构、常见问题。三个月后,它比你的新同事更了解你的工作方式。
2 三个核心概念:MCP · Skill · CLI
这些词在 Agent 圈高频出现。它们不是 buzzword,每一个都对应一种关键能力。
🔌 MCP(Model Context Protocol)— AI 的「万能插头」
MCP 是什么
由 Anthropic 于 2024年底提出的开放协议,定义了 AI 模型与外部工具/数据源之间的标准通信方式。可以理解为 AI 界的 USB-C 接口——不管什么工具,只要实现 MCP 协议,任何支持 MCP 的 Agent 都能直接调用。
Anthropic 提出 开放标准MCP 解决了什么
没有 MCP 之前,每个 AI 工具要接入外部系统(数据库、文件系统、API、浏览器)都得单独开发集成。MCP 统一了接口:工具开发者写一次 MCP Server,所有 Agent 都能用。Agent 开发者不需要为每个工具写胶水代码。
一次开发,到处使用MCP Server
任何人写一个 MCP Server,封装某个工具(如数据库查询、文件操作、浏览器控制)
Agent 加载
Hermes / QwenPaw / Codex 等 Agent 框架加载这个 MCP Server
模型调用
AI 模型通过 MCP 协议标准化地发现、调用该工具,与它交互
目前 Hermes 和 QwenPaw 均支持 MCP。Codex CLI 以自有工具为主。MCP 生态正在快速膨胀,GitHub 上已有数千个 MCP Server。
🛠️ Skill — AI 的「可复用技能包」
Skill 是什么
Skill 是一个包含提示词和配置的模块化能力包。每个 Skill 对应一个特定领域的能力(如「写 Python」「用 Docker」「做数据分析」),Agent 在需要时加载对应 Skill,从而在该领域表现更好。
领域能力 模块化Skill vs MCP 的区别
MCP 是「连接外部工具」——让 AI 能调用数据库、浏览器、文件系统。
Skill 是「增强内部能力」——让 AI 在某个领域更专业,通过专门的提示词、工作流、知识嵌入。两者互补:MCP 给手,Skill 给脑。
⌨️ CLI(Command Line Interface)— Agent 的「原生界面」
CLI 不是倒退
很多人问:为什么不用网页?恰恰相反——CLI(命令行界面)是 AI Agent 的最自然交互方式。原因很简单:Agent 需要在你的本地环境执行命令、读写文件、启动进程。CLI 直接运行在你的操作系统里,拥有完整的系统权限。网页做不到这些。
本地执行CLI 相比 GUI 的优势
对 AI 而言,CLI 更高效:文本输入输出天然适合 LLM 处理;可以管道串联;可以脚本化;可以被 Agent 自己调用。一个 GUI 按钮对 AI 来说需要视觉识别+坐标点击,CLI 命令直接就是结构化文本。所以 CLI 不是给人类用的复古界面,是给 AI 用的原生界面。
AI Native3 三大 Agent 详细对比
Hermes Agent · QwenPaw · Codex CLI —— 定位不同、生态不同、适合的人也不同。
| 维度 | 🪽 Hermes Agent | 🐾 QwenPaw | 🔷 Codex CLI |
|---|---|---|---|
| 开发者 | Nous Research 独立 AI 研究机构,以 Hermes 系列开源模型闻名 |
agentscope-ai 阿里通义生态,AgentScope 框架团队 |
OpenAI ChatGPT 背后的公司 |
| GitHub | ⭐ 177k · Fork 30.3k | ⭐ 17.2k · Fork 2.6k | ⭐ 88k · Fork 12.9k |
| 许可协议 | MIT(最宽松) | Apache 2.0 | Apache 2.0 |
| 核心定位 | 通用自我进化 AI 助手 「会成长的 Agent」 |
个人多 Agent 助手 「Agent 之间的协作」 |
纯代码 Agent 「终端里的程序员」 |
| 模型支持 | 模型无关,200+ 模型 OpenRouter / Nous Portal / OpenAI / GLM / Kimi / MiniMax / NVIDIA NIM / 自建端点 |
通义/Qwen 生态为主 也支持 OpenAI 兼容 API |
绑定 ChatGPT 订阅 或 OpenAI API key |
| 自我学习 | ⭐ 闭环学习系统 自动从经验创建 Skill · Skill 使用中自我改进 · Honcho 用户建模 · 主动提醒保存记忆 |
被动记忆 AGENTS.md / MEMORY.md 需人工或 Agent 手动更新 |
无 无跨会话学习机制 |
| 记忆系统 | FTS5 全文搜索 + LLM 摘要 + Honcho 辩证用户模型 + 跨会话持久化 | AGENTS.md · SOUL.md · PROFILE.md · MEMORY.md · memory/ 每日笔记 | 基础会话上下文 |
| 多端覆盖 | Telegram · Discord · Slack · WhatsApp · Signal · CLI · 桌面 App · Web UI | Telegram · Discord · CLI | CLI · 桌面 App · Web · VS Code / Cursor / Windsurf IDE 插件 |
| 工具能力 | 60+ 内置工具 · MCP · Shell · 浏览器 · 截图 · 定时任务 · 子 Agent · 语音 | Shell · 浏览器 · 截图 · 多 Agent 通信 · 后台任务 · Skills | Shell · Git · Sandbox 沙箱 · IDE 深度集成 |
| 多 Agent | 支持子 Agent 派发,但非原生核心 | ⭐ 原生多 Agent 架构 chat_with_agent · submit_to_agent · 流水线 |
无 |
| 部署方式 | $5 VPS · GPU 集群 · Serverless(Daytona, Modal)· 本地 | 本地 · 云服务器 · Docker | 本地为主(macOS/Linux/Windows) |
| 中文支持 | ✅ 有中文 README | ✅ 原生中文 | 基础 |
| 代码能力 | 强(通用能力的一部分) | 中等 | ⭐ 极致(唯一焦点) |
🪽 Hermes Agent — 「会自我进化的 Agent」
一句话:它是唯一有「闭环学习」的 Agent
Hermes 的差异化不在「功能更多」,而在机制不同。QwenPaw 和 Codex 是你告诉它怎么做,Hermes 是它自己在使用中学会怎么做。 完成复杂任务 → 自动提炼成 Skill → 下次复用 → 使用中继续改进。这个循环在别的 Agent 里不存在。
自动技能化
完成一个复杂任务后,Hermes 会自动分析过程,提炼出可复用的 Skill。你不需要手动编写 Skill 配置。
核心差异技能自我改进
Skill 不是写死的——每次使用中如果发现更好的做法,Skill 会自动更新。技能库随时间越来越强。
持续进化Honcho 用户建模
不是简单的偏好记录,而是一套辩证模型,持续构建对你的深层理解——决策模式、工作习惯、思维偏好。
Nous 自研主动提醒(Nudge)
Agent 会在对话中主动提醒自己:「这个信息重要,需要保存」。不是被动等人说「记住这个」。
主动性
适合谁:重度 Agent 用户 · 希望 AI 越用越懂自己的人 · 需要多模型切换的人 · 对「自我进化」理念认同的前沿用户。
官网:hermes-agent.nousresearch.com ·
GitHub:NousResearch/hermes-agent
🐾 QwenPaw — 「多 Agent 协作的原生平台」
一句话:它是唯一原生支持「Agent 之间互相通信」的平台
QwenPaw 的独特之处在于多 Agent 架构。你可以创建 reporter→editor→chief 这样的流水线, 不同 Agent 各司其职、互相通信。Hermes 和 Codex 也能派生子 Agent,但 QwenPaw 是唯一把「Agent 间通信」 作为一等公民设计的——chat_with_agent(同步)、submit_to_agent(异步后台任务)、check_agent_task(轮询结果)。
Agent 间通信
一个 Agent 可以给另一个 Agent 发消息、提交后台任务、轮询结果。这为复杂流水线提供了原语。
独有优势中文原生
基于通义千问生态,对中文内容的理解和生成天然更优。如果你的工作语言主要是中文,这是不可忽视的优势。
语言优势工作空间范式
AGENTS.md + SOUL.md + PROFILE.md + MEMORY.md + memory/ 每日笔记——清晰的文件记忆体系,Agent 人格和行为可精细调控。
结构化记忆丰富的内置工具
Shell 执行 · 浏览器操控 · 桌面截图 · 文件搜索(grep/glob) · 图片/视频查看 · 多 Agent 列表与管理。
开箱即用
适合谁:需要多 Agent 协作流水线的用户 · 中文为主要工作语言 · 偏好阿里/通义生态 · 重视 Agent 人格可配置性。
GitHub:agentscope-ai/QwenPaw
🔷 Codex CLI — 「终端里的程序员」
一句话:它是目前最强的纯代码 Agent
Codex CLI 的定位极度聚焦——它就是帮你写代码的。不做通用助手、不做多 Agent 编排、不做自我进化。 但它在代码这件事上做到极致:Sandbox 环境隔离、Git 深度集成、IDE(VS Code/Cursor/Windsurf)无缝体验、 ChatGPT 订阅直接可用。如果你主要用 AI 写代码,它是专为此生的。
Sandbox 沙箱
代码在隔离沙箱中运行,不会污染你的本地环境。测试完确认安全后再合并——这是生产级代码 Agent 的必备能力。
安全隔离IDE 深度集成
VS Code / Cursor / Windsurf 插件。在编辑器里直接与 Codex 对话,diff 预览、一键接受修改。
工作流顺畅Git 原生
自动创建分支、提交、生成 PR 描述。Codex 对代码工作流的理解比其他 Agent 深一个层次。
版本控制ChatGPT 订阅即用
不需要额外付费、不需要配 API key。如果你已有 ChatGPT Plus/Pro,Codex CLI 直接可用。
零门槛
适合谁:程序员 · 已有 ChatGPT 订阅 · 主要用 AI 写代码而非通用任务 · 需要 IDE 集成体验。
官网:developers.openai.com/codex ·
GitHub:openai/codex
4 前沿使用者的态度与用法
基于 GitHub Discussions、Discord 社区、以及实际使用者的反馈,总结当前 Agent 用户的态度和典型工作流。
🎯 前沿用户的三类态度
「全押 Hermes」派
理由:闭环学习是质的差异。他们相信 Agent 的核心价值不在当下的功能列表,而在未来的成长曲线。一个越用越强的 Agent 比一个功能完备但不成长的 Agent 更有长期价值。他们愿意接受 Hermes 尚在快速迭代中的不稳定性。
长期主义「双轨并行」派
最常见的前沿用户策略。Hermes 做日常助理和探索性工作(利用学习能力),Codex 做重型编码(利用专业化),QwenPaw 做多 Agent 流水线(利用通信架构)。不对立,按场景选用。
实用主义「一套用到底」派
选定一个平台深耕。这类用户认为切换成本大于差异化收益。常见于:重度 Codex 用户(编码是绝对核心需求)、QwenPaw 用户(中文和多 Agent 流水线是刚需)、以及不想折腾的实用派。
深度派⚡ 前沿用户的典型工作流
晨间简报(Agent 自动)
Cron 定时任务:每天早上 Agent 自动抓取新闻、整理日程、总结未读消息,推送到 Telegram。人到桌前,简报已经在手机上了。
异步工作Code Review 自动化
Agent 监控 GitHub PR,自动进行代码审查、生成 Review 意见、甚至直接修复简单问题。人只需要审批关键决策。
代码辅助文档与知识库维护
Agent 持续维护 MEMORY.md、项目文档、知识库 HTML。不需要人手写——对话中产生的知识自动沉淀为结构化文档。
知识沉淀研究调研(Agent 自主)
给 Agent 一个调研主题,它自主搜索、阅读、整理、对比、输出报告。你只需定义问题和审核结论。
自动化研究「最好的 Agent 不是你用得最多的,而是你忘了它在跑的那个。」
—— Hermes Agent Discord 社区的常见观点
🔑 前沿用户的共识
Agent 不是替代聊天,是替代操作
如果你只是问问题,用网页版就够了。Agent 的价值在于替你执行——操作文件、运行命令、维护项目。
记忆系统决定天花板
Agent 的长期价值取决于它多快能「懂你」。用一个月 Hermes 和用一个月 ChatGPT 网页版,前者已经建立了你的工作模型,后者每次都是从零开始。
CLI 是 AI Native 界面
不要试图让 Agent 用 GUI。CLI 是文本进文本出,天然适配 LLM。未来最好的 Agent 交互界面可能就是终端。
模型锁定是最大风险
只绑一个模型供应商是危险的。Hermes 的模型无关性是它被前沿用户青睐的重要原因——随时切换到当时最好/最便宜的模型。
5 到底怎么选?
没有标准答案,但有清晰的决策路径。
| 你的情况 | 推荐 | 理由 |
|---|---|---|
| 主要写代码 | Codex CLI + Hermes 辅助 | Codex 的 IDE 集成和 Sandbox 无可替代;Hermes 管代码以外的所有事 |
| 需要多 Agent 流水线 | QwenPaw | 原生多 Agent 通信是刚需,其他两个做不到同样流畅 |
| 中文为主要工作语言 | QwenPaw 或 Hermes + Kimi/GLM | QwenPaw 中文原生最优;Hermes 接 Kimi/GLM 也足够好 |
| 追求「越用越懂我」 | Hermes Agent | 闭环学习系统是唯一选择,其他 Agent 不具备这个能力 |
| 不想被模型绑定 | Hermes Agent | 200+ 模型随时切换,Codex 锁 ChatGPT,QwenPaw 偏通义 |
| 已有 ChatGPT 订阅 | Codex CLI 起步 | 零额外成本就能体验 Agent 模式,是最低门槛的入口 |
| 全部都要 | Hermes + QwenPaw 双轨 | Hermes 做日常助理(成长型),QwenPaw 做多 Agent 流水线(结构型),各取所长 |