← 知识库

AI Agent 入门完全指南

从「和 AI 聊天」到「AI 替你干活」——理解本地 Agent 工具的范式革命。 一篇讲清楚:为什么它们和 ChatGPT 网页版不是一回事、MCP/Skill/CLI 到底是什么、 Hermes / QwenPaw / Codex 怎么选。

📅 2026年6月 🏷️ AI Agent 🔧 本地工具 🌐 MCP协议 ⚡ CLI革命

1 范式革命:本地 Agent vs 网页聊天

理解这轮 AI 工具变革的关键,不在「模型更强了」,而在「模型能动手了」。

🖥️ 传统网页聊天

ChatGPT / 豆包 / Kimi / DeepSeek 网页版

  • 只能聊,不能做。你问它答,对话结束就结束。
  • 无文件系统权限。它看不到你的文件夹,不能读你的代码项目,不能操作你的本地文件。
  • 无工具链。不能执行 shell 命令、不能控制浏览器、不能调用 API、不能定时任务。
  • 无记忆延续。每次新会话从零开始,你反复交代同样的上下文。
  • 你手动搬运。AI 给方案 → 你复制 → 粘贴到终端/编辑器 → 执行 → 报错 → 复制报错 → 贴回聊天框。循环往复。

🤖 本地 Agent 工具

Hermes Agent / QwenPaw / Codex CLI

  • 能聊,更能做。AI 直接读写文件、执行命令、操作浏览器、发消息。
  • 有完整文件系统权限。它「看到」你的项目结构,直接在正确的目录里操作。
  • 有工具链。Shell、浏览器、API 调用、截图、定时任务——就像一个真正的操作系统级助手。
  • 有持久记忆。跨会话记忆(MEMORY.md/AGENTS.md),不断积累对你的认知,越用越懂你。
  • AI 自主闭环。给目标 → AI 规划 → 执行 → 读结果 → 修正 → 再执行 → 直到完成。你只需验收。
一句话总结:网页聊天是「我问你答的参谋」,本地 Agent 是「能动手的执行官」。 前者给你答案,后者替你干活。

为什么这是质的飞跃?

🔓

打破「复制粘贴」循环

Agent 直接在你的终端里执行命令,读到报错自己修正,不再需要你把报错贴回去。这是效率提升最大的来源。

📂

上下文即项目

Agent 可以看到你的整个项目目录结构,理解文件之间的关系。不需要你解释「我有个项目,目录是……」——它自己看。

从同步到异步

你可以给 Agent 一个任务然后去睡觉。它定时执行、后台运行、通过 Telegram 向你汇报进度。你不再需要「盯着它干活」。

🧠

越用越聪明

每次交互都被记录。它记住你的偏好、项目结构、常见问题。三个月后,它比你的新同事更了解你的工作方式。

2 三个核心概念:MCP · Skill · CLI

这些词在 Agent 圈高频出现。它们不是 buzzword,每一个都对应一种关键能力。

🔌 MCP(Model Context Protocol)— AI 的「万能插头」

📡

MCP 是什么

由 Anthropic 于 2024年底提出的开放协议,定义了 AI 模型与外部工具/数据源之间的标准通信方式。可以理解为 AI 界的 USB-C 接口——不管什么工具,只要实现 MCP 协议,任何支持 MCP 的 Agent 都能直接调用。

Anthropic 提出 开放标准
🔧

MCP 解决了什么

没有 MCP 之前,每个 AI 工具要接入外部系统(数据库、文件系统、API、浏览器)都得单独开发集成。MCP 统一了接口:工具开发者写一次 MCP Server,所有 Agent 都能用。Agent 开发者不需要为每个工具写胶水代码。

一次开发,到处使用
类比:MCP 之于 AI Agent,就像 HTTP 之于浏览器、USB 之于外设。它是一个中间层协议,让「AI 能调用什么」不再是每个 Agent 单独实现的封闭生态,而是一个开放的、可互操作的标准。
1

MCP Server

任何人写一个 MCP Server,封装某个工具(如数据库查询、文件操作、浏览器控制)

2

Agent 加载

Hermes / QwenPaw / Codex 等 Agent 框架加载这个 MCP Server

3

模型调用

AI 模型通过 MCP 协议标准化地发现、调用该工具,与它交互

目前 Hermes 和 QwenPaw 均支持 MCP。Codex CLI 以自有工具为主。MCP 生态正在快速膨胀,GitHub 上已有数千个 MCP Server。

🛠️ Skill — AI 的「可复用技能包」

📦

Skill 是什么

Skill 是一个包含提示词和配置的模块化能力包。每个 Skill 对应一个特定领域的能力(如「写 Python」「用 Docker」「做数据分析」),Agent 在需要时加载对应 Skill,从而在该领域表现更好。

领域能力 模块化
🔄

Skill vs MCP 的区别

MCP 是「连接外部工具」——让 AI 能调用数据库、浏览器、文件系统。
Skill 是「增强内部能力」——让 AI 在某个领域更专业,通过专门的提示词、工作流、知识嵌入。两者互补:MCP 给手,Skill 给脑。

一个管外面,一个管里面
Hermes 的杀手特性:Hermes Agent 不仅是「使用」Skill,还会在完成复杂任务后自动创建新 Skill,并在后续使用中自我改进已有 Skill。这是它和三方中最独特的能力——「越用技能越多、越好」。

⌨️ CLI(Command Line Interface)— Agent 的「原生界面」

💻

CLI 不是倒退

很多人问:为什么不用网页?恰恰相反——CLI(命令行界面)是 AI Agent 的最自然交互方式。原因很简单:Agent 需要在你的本地环境执行命令、读写文件、启动进程。CLI 直接运行在你的操作系统里,拥有完整的系统权限。网页做不到这些。

本地执行

CLI 相比 GUI 的优势

对 AI 而言,CLI 更高效:文本输入输出天然适合 LLM 处理;可以管道串联;可以脚本化;可以被 Agent 自己调用。一个 GUI 按钮对 AI 来说需要视觉识别+坐标点击,CLI 命令直接就是结构化文本。所以 CLI 不是给人类用的复古界面,是给 AI 用的原生界面

AI Native
三者关系: CLI 是 Agent 的运行环境(它在哪里执行),MCP 是 Agent 的外部接口(它怎么连接世界),Skill 是 Agent 的能力模块(它擅长什么)。一个完整的 Agent 体系 = CLI 环境 + MCP 连接 + Skill 能力 + LLM 大脑。

3 三大 Agent 详细对比

Hermes Agent · QwenPaw · Codex CLI —— 定位不同、生态不同、适合的人也不同。

维度 🪽 Hermes Agent 🐾 QwenPaw 🔷 Codex CLI
开发者 Nous Research
独立 AI 研究机构,以 Hermes 系列开源模型闻名
agentscope-ai
阿里通义生态,AgentScope 框架团队
OpenAI
ChatGPT 背后的公司
GitHub ⭐ 177k · Fork 30.3k ⭐ 17.2k · Fork 2.6k ⭐ 88k · Fork 12.9k
许可协议 MIT(最宽松) Apache 2.0 Apache 2.0
核心定位 通用自我进化 AI 助手
「会成长的 Agent」
个人多 Agent 助手
「Agent 之间的协作」
纯代码 Agent
「终端里的程序员」
模型支持 模型无关,200+ 模型
OpenRouter / Nous Portal / OpenAI / GLM / Kimi / MiniMax / NVIDIA NIM / 自建端点
通义/Qwen 生态为主
也支持 OpenAI 兼容 API
绑定 ChatGPT 订阅
或 OpenAI API key
自我学习 ⭐ 闭环学习系统
自动从经验创建 Skill · Skill 使用中自我改进 · Honcho 用户建模 · 主动提醒保存记忆
被动记忆
AGENTS.md / MEMORY.md 需人工或 Agent 手动更新

无跨会话学习机制
记忆系统 FTS5 全文搜索 + LLM 摘要 + Honcho 辩证用户模型 + 跨会话持久化 AGENTS.md · SOUL.md · PROFILE.md · MEMORY.md · memory/ 每日笔记 基础会话上下文
多端覆盖 Telegram · Discord · Slack · WhatsApp · Signal · CLI · 桌面 App · Web UI Telegram · Discord · CLI CLI · 桌面 App · Web · VS Code / Cursor / Windsurf IDE 插件
工具能力 60+ 内置工具 · MCP · Shell · 浏览器 · 截图 · 定时任务 · 子 Agent · 语音 Shell · 浏览器 · 截图 · 多 Agent 通信 · 后台任务 · Skills Shell · Git · Sandbox 沙箱 · IDE 深度集成
多 Agent 支持子 Agent 派发,但非原生核心 ⭐ 原生多 Agent 架构
chat_with_agent · submit_to_agent · 流水线
部署方式 $5 VPS · GPU 集群 · Serverless(Daytona, Modal)· 本地 本地 · 云服务器 · Docker 本地为主(macOS/Linux/Windows)
中文支持 ✅ 有中文 README ✅ 原生中文 基础
代码能力 强(通用能力的一部分) 中等 ⭐ 极致(唯一焦点)

🪽 Hermes Agent — 「会自我进化的 Agent」

一句话:它是唯一有「闭环学习」的 Agent

Hermes 的差异化不在「功能更多」,而在机制不同。QwenPaw 和 Codex 是你告诉它怎么做,Hermes 是它自己在使用中学会怎么做。 完成复杂任务 → 自动提炼成 Skill → 下次复用 → 使用中继续改进。这个循环在别的 Agent 里不存在。

🔄

自动技能化

完成一个复杂任务后,Hermes 会自动分析过程,提炼出可复用的 Skill。你不需要手动编写 Skill 配置。

核心差异
📈

技能自我改进

Skill 不是写死的——每次使用中如果发现更好的做法,Skill 会自动更新。技能库随时间越来越强。

持续进化
👤

Honcho 用户建模

不是简单的偏好记录,而是一套辩证模型,持续构建对你的深层理解——决策模式、工作习惯、思维偏好。

Nous 自研
💡

主动提醒(Nudge)

Agent 会在对话中主动提醒自己:「这个信息重要,需要保存」。不是被动等人说「记住这个」。

主动性

适合谁:重度 Agent 用户 · 希望 AI 越用越懂自己的人 · 需要多模型切换的人 · 对「自我进化」理念认同的前沿用户。
官网:hermes-agent.nousresearch.com · GitHub:NousResearch/hermes-agent

🐾 QwenPaw — 「多 Agent 协作的原生平台」

一句话:它是唯一原生支持「Agent 之间互相通信」的平台

QwenPaw 的独特之处在于多 Agent 架构。你可以创建 reporter→editor→chief 这样的流水线, 不同 Agent 各司其职、互相通信。Hermes 和 Codex 也能派生子 Agent,但 QwenPaw 是唯一把「Agent 间通信」 作为一等公民设计的——chat_with_agent(同步)、submit_to_agent(异步后台任务)、check_agent_task(轮询结果)。

🤝

Agent 间通信

一个 Agent 可以给另一个 Agent 发消息、提交后台任务、轮询结果。这为复杂流水线提供了原语。

独有优势
🇨🇳

中文原生

基于通义千问生态,对中文内容的理解和生成天然更优。如果你的工作语言主要是中文,这是不可忽视的优势。

语言优势
📋

工作空间范式

AGENTS.md + SOUL.md + PROFILE.md + MEMORY.md + memory/ 每日笔记——清晰的文件记忆体系,Agent 人格和行为可精细调控。

结构化记忆
🔧

丰富的内置工具

Shell 执行 · 浏览器操控 · 桌面截图 · 文件搜索(grep/glob) · 图片/视频查看 · 多 Agent 列表与管理。

开箱即用

适合谁:需要多 Agent 协作流水线的用户 · 中文为主要工作语言 · 偏好阿里/通义生态 · 重视 Agent 人格可配置性。
GitHub:agentscope-ai/QwenPaw

🔷 Codex CLI — 「终端里的程序员」

一句话:它是目前最强的纯代码 Agent

Codex CLI 的定位极度聚焦——它就是帮你写代码的。不做通用助手、不做多 Agent 编排、不做自我进化。 但它在代码这件事上做到极致:Sandbox 环境隔离、Git 深度集成、IDE(VS Code/Cursor/Windsurf)无缝体验、 ChatGPT 订阅直接可用。如果你主要用 AI 写代码,它是专为此生的。

🏖️

Sandbox 沙箱

代码在隔离沙箱中运行,不会污染你的本地环境。测试完确认安全后再合并——这是生产级代码 Agent 的必备能力。

安全隔离
🔗

IDE 深度集成

VS Code / Cursor / Windsurf 插件。在编辑器里直接与 Codex 对话,diff 预览、一键接受修改。

工作流顺畅
🔄

Git 原生

自动创建分支、提交、生成 PR 描述。Codex 对代码工作流的理解比其他 Agent 深一个层次。

版本控制
💳

ChatGPT 订阅即用

不需要额外付费、不需要配 API key。如果你已有 ChatGPT Plus/Pro,Codex CLI 直接可用。

零门槛

适合谁:程序员 · 已有 ChatGPT 订阅 · 主要用 AI 写代码而非通用任务 · 需要 IDE 集成体验。
官网:developers.openai.com/codex · GitHub:openai/codex

4 前沿使用者的态度与用法

基于 GitHub Discussions、Discord 社区、以及实际使用者的反馈,总结当前 Agent 用户的态度和典型工作流。

🎯 前沿用户的三类态度

🚀

「全押 Hermes」派

理由:闭环学习是质的差异。他们相信 Agent 的核心价值不在当下的功能列表,而在未来的成长曲线。一个越用越强的 Agent 比一个功能完备但不成长的 Agent 更有长期价值。他们愿意接受 Hermes 尚在快速迭代中的不稳定性。

长期主义
🔀

「双轨并行」派

最常见的前沿用户策略。Hermes 做日常助理和探索性工作(利用学习能力),Codex 做重型编码(利用专业化),QwenPaw 做多 Agent 流水线(利用通信架构)。不对立,按场景选用

实用主义
🔒

「一套用到底」派

选定一个平台深耕。这类用户认为切换成本大于差异化收益。常见于:重度 Codex 用户(编码是绝对核心需求)、QwenPaw 用户(中文和多 Agent 流水线是刚需)、以及不想折腾的实用派。

深度派

⚡ 前沿用户的典型工作流

🌅

晨间简报(Agent 自动)

Cron 定时任务:每天早上 Agent 自动抓取新闻、整理日程、总结未读消息,推送到 Telegram。人到桌前,简报已经在手机上了。

异步工作
💻

Code Review 自动化

Agent 监控 GitHub PR,自动进行代码审查、生成 Review 意见、甚至直接修复简单问题。人只需要审批关键决策。

代码辅助
📝

文档与知识库维护

Agent 持续维护 MEMORY.md、项目文档、知识库 HTML。不需要人手写——对话中产生的知识自动沉淀为结构化文档。

知识沉淀
🔬

研究调研(Agent 自主)

给 Agent 一个调研主题,它自主搜索、阅读、整理、对比、输出报告。你只需定义问题和审核结论。

自动化研究
「最好的 Agent 不是你用得最多的,而是你忘了它在跑的那个。」
—— Hermes Agent Discord 社区的常见观点

🔑 前沿用户的共识

1

Agent 不是替代聊天,是替代操作

如果你只是问问题,用网页版就够了。Agent 的价值在于替你执行——操作文件、运行命令、维护项目。

2

记忆系统决定天花板

Agent 的长期价值取决于它多快能「懂你」。用一个月 Hermes 和用一个月 ChatGPT 网页版,前者已经建立了你的工作模型,后者每次都是从零开始。

3

CLI 是 AI Native 界面

不要试图让 Agent 用 GUI。CLI 是文本进文本出,天然适配 LLM。未来最好的 Agent 交互界面可能就是终端。

4

模型锁定是最大风险

只绑一个模型供应商是危险的。Hermes 的模型无关性是它被前沿用户青睐的重要原因——随时切换到当时最好/最便宜的模型。

5 到底怎么选?

没有标准答案,但有清晰的决策路径。

你的情况 推荐 理由
主要写代码 Codex CLI + Hermes 辅助 Codex 的 IDE 集成和 Sandbox 无可替代;Hermes 管代码以外的所有事
需要多 Agent 流水线 QwenPaw 原生多 Agent 通信是刚需,其他两个做不到同样流畅
中文为主要工作语言 QwenPawHermes + Kimi/GLM QwenPaw 中文原生最优;Hermes 接 Kimi/GLM 也足够好
追求「越用越懂我」 Hermes Agent 闭环学习系统是唯一选择,其他 Agent 不具备这个能力
不想被模型绑定 Hermes Agent 200+ 模型随时切换,Codex 锁 ChatGPT,QwenPaw 偏通义
已有 ChatGPT 订阅 Codex CLI 起步 零额外成本就能体验 Agent 模式,是最低门槛的入口
全部都要 Hermes + QwenPaw 双轨 Hermes 做日常助理(成长型),QwenPaw 做多 Agent 流水线(结构型),各取所长
当前建议(2026年6月):先用好你已有的 QwenPaw。你的多 Agent 新闻社流水线 (reporter→editor→chief)是 QwenPaw 的强项场景,不需要迁移。同时可以在 Hermes 上 开一个并行实例,作为日常个人助理体验它的闭环学习。两者文件记忆体系互通 (AGENTS.md/SOUL.md/PROFILE.md 范式一致),迁移成本很低。