AI Agent 入门 — 本地Agent vs 网页聊天 · MCP/Skill/CLI 科普

1 范式革命：本地 Agent vs 网页聊天

理解这轮 AI 工具变革的关键，不在「模型更强了」，而在「模型能动手了」。

🖥️ 传统网页聊天

ChatGPT / 豆包 / Kimi / DeepSeek 网页版

只能聊，不能做。你问它答，对话结束就结束。
无文件系统权限。它看不到你的文件夹，不能读你的代码项目，不能操作你的本地文件。
无工具链。不能执行 shell 命令、不能控制浏览器、不能调用 API、不能定时任务。
无记忆延续。每次新会话从零开始，你反复交代同样的上下文。
你手动搬运。AI 给方案 → 你复制 → 粘贴到终端/编辑器 → 执行 → 报错 → 复制报错 → 贴回聊天框。循环往复。

→

🤖 本地 Agent 工具

Hermes Agent / QwenPaw / Codex CLI

能聊，更能做。AI 直接读写文件、执行命令、操作浏览器、发消息。
有完整文件系统权限。它「看到」你的项目结构，直接在正确的目录里操作。
有工具链。Shell、浏览器、API 调用、截图、定时任务——就像一个真正的操作系统级助手。
有持久记忆。跨会话记忆（MEMORY.md/AGENTS.md），不断积累对你的认知，越用越懂你。
AI 自主闭环。给目标 → AI 规划 → 执行 → 读结果 → 修正 → 再执行 → 直到完成。你只需验收。

一句话总结：网页聊天是「我问你答的参谋」，本地 Agent 是「能动手的执行官」。前者给你答案，后者替你干活。

为什么这是质的飞跃？

🔓

打破「复制粘贴」循环

Agent 直接在你的终端里执行命令，读到报错自己修正，不再需要你把报错贴回去。这是效率提升最大的来源。

📂

上下文即项目

Agent 可以看到你的整个项目目录结构，理解文件之间的关系。不需要你解释「我有个项目，目录是……」——它自己看。

⏰

从同步到异步

你可以给 Agent 一个任务然后去睡觉。它定时执行、后台运行、通过 Telegram 向你汇报进度。你不再需要「盯着它干活」。

🧠

越用越聪明

每次交互都被记录。它记住你的偏好、项目结构、常见问题。三个月后，它比你的新同事更了解你的工作方式。

2 三个核心概念：MCP · Skill · CLI

这些词在 Agent 圈高频出现。它们不是 buzzword，每一个都对应一种关键能力。

🔌 MCP（Model Context Protocol）— AI 的「万能插头」

📡

MCP 是什么

由 Anthropic 于 2024年底提出的开放协议，定义了 AI 模型与外部工具/数据源之间的标准通信方式。可以理解为 AI 界的 USB-C 接口——不管什么工具，只要实现 MCP 协议，任何支持 MCP 的 Agent 都能直接调用。

Anthropic 提出开放标准

🔧

MCP 解决了什么

没有 MCP 之前，每个 AI 工具要接入外部系统（数据库、文件系统、API、浏览器）都得单独开发集成。MCP 统一了接口：工具开发者写一次 MCP Server，所有 Agent 都能用。Agent 开发者不需要为每个工具写胶水代码。

一次开发，到处使用

类比：MCP 之于 AI Agent，就像 HTTP 之于浏览器、USB 之于外设。它是一个中间层协议，让「AI 能调用什么」不再是每个 Agent 单独实现的封闭生态，而是一个开放的、可互操作的标准。

1

MCP Server

任何人写一个 MCP Server，封装某个工具（如数据库查询、文件操作、浏览器控制）

2

Agent 加载

Hermes / QwenPaw / Codex 等 Agent 框架加载这个 MCP Server

3

模型调用

AI 模型通过 MCP 协议标准化地发现、调用该工具，与它交互

目前 Hermes 和 QwenPaw 均支持 MCP。Codex CLI 以自有工具为主。MCP 生态正在快速膨胀，GitHub 上已有数千个 MCP Server。

🛠️ Skill — AI 的「可复用技能包」

📦

Skill 是什么

Skill 是一个包含提示词和配置的模块化能力包。每个 Skill 对应一个特定领域的能力（如「写 Python」「用 Docker」「做数据分析」），Agent 在需要时加载对应 Skill，从而在该领域表现更好。

领域能力模块化

🔄

Skill vs MCP 的区别

MCP 是「连接外部工具」——让 AI 能调用数据库、浏览器、文件系统。
Skill 是「增强内部能力」——让 AI 在某个领域更专业，通过专门的提示词、工作流、知识嵌入。两者互补：MCP 给手，Skill 给脑。

一个管外面，一个管里面

Hermes 的杀手特性：Hermes Agent 不仅是「使用」Skill，还会在完成复杂任务后自动创建新 Skill，并在后续使用中自我改进已有 Skill。这是它和三方中最独特的能力——「越用技能越多、越好」。

⌨️ CLI（Command Line Interface）— Agent 的「原生界面」

💻

CLI 不是倒退

很多人问：为什么不用网页？恰恰相反——CLI（命令行界面）是 AI Agent 的最自然交互方式。原因很简单：Agent 需要在你的本地环境执行命令、读写文件、启动进程。CLI 直接运行在你的操作系统里，拥有完整的系统权限。网页做不到这些。

本地执行

⚡

CLI 相比 GUI 的优势

对 AI 而言，CLI 更高效：文本输入输出天然适合 LLM 处理；可以管道串联；可以脚本化；可以被 Agent 自己调用。一个 GUI 按钮对 AI 来说需要视觉识别+坐标点击，CLI 命令直接就是结构化文本。所以 CLI 不是给人类用的复古界面，是给 AI 用的原生界面。

AI Native

三者关系： CLI 是 Agent 的运行环境（它在哪里执行），MCP 是 Agent 的外部接口（它怎么连接世界），Skill 是 Agent 的能力模块（它擅长什么）。一个完整的 Agent 体系 = CLI 环境 + MCP 连接 + Skill 能力 + LLM 大脑。

3 三大 Agent 详细对比

Hermes Agent · QwenPaw · Codex CLI —— 定位不同、生态不同、适合的人也不同。

维度	🪽 Hermes Agent	🐾 QwenPaw	🔷 Codex CLI
开发者	Nous Research 独立 AI 研究机构，以 Hermes 系列开源模型闻名	agentscope-ai 阿里通义生态，AgentScope 框架团队	OpenAI ChatGPT 背后的公司
GitHub	⭐ 177k · Fork 30.3k	⭐ 17.2k · Fork 2.6k	⭐ 88k · Fork 12.9k
许可协议	MIT（最宽松）	Apache 2.0	Apache 2.0
核心定位	通用自我进化 AI 助手「会成长的 Agent」	个人多 Agent 助手「Agent 之间的协作」	纯代码 Agent 「终端里的程序员」
模型支持	模型无关，200+ 模型 OpenRouter / Nous Portal / OpenAI / GLM / Kimi / MiniMax / NVIDIA NIM / 自建端点	通义/Qwen 生态为主也支持 OpenAI 兼容 API	绑定 ChatGPT 订阅或 OpenAI API key
自我学习	⭐ 闭环学习系统自动从经验创建 Skill · Skill 使用中自我改进 · Honcho 用户建模 · 主动提醒保存记忆	被动记忆 AGENTS.md / MEMORY.md 需人工或 Agent 手动更新	无无跨会话学习机制
记忆系统	FTS5 全文搜索 + LLM 摘要 + Honcho 辩证用户模型 + 跨会话持久化	AGENTS.md · SOUL.md · PROFILE.md · MEMORY.md · memory/ 每日笔记	基础会话上下文
多端覆盖	Telegram · Discord · Slack · WhatsApp · Signal · CLI · 桌面 App · Web UI	Telegram · Discord · CLI	CLI · 桌面 App · Web · VS Code / Cursor / Windsurf IDE 插件
工具能力	60+ 内置工具 · MCP · Shell · 浏览器 · 截图 · 定时任务 · 子 Agent · 语音	Shell · 浏览器 · 截图 · 多 Agent 通信 · 后台任务 · Skills	Shell · Git · Sandbox 沙箱 · IDE 深度集成
多 Agent	支持子 Agent 派发，但非原生核心	⭐ 原生多 Agent 架构 chat_with_agent · submit_to_agent · 流水线	无
部署方式	$5 VPS · GPU 集群 · Serverless（Daytona, Modal）· 本地	本地 · 云服务器 · Docker	本地为主（macOS/Linux/Windows）
中文支持	✅ 有中文 README	✅ 原生中文	基础
代码能力	强（通用能力的一部分）	中等	⭐ 极致（唯一焦点）

🪽 Hermes Agent — 「会自我进化的 Agent」

一句话：它是唯一有「闭环学习」的 Agent

Hermes 的差异化不在「功能更多」，而在机制不同。QwenPaw 和 Codex 是你告诉它怎么做，Hermes 是它自己在使用中学会怎么做。完成复杂任务 → 自动提炼成 Skill → 下次复用 → 使用中继续改进。这个循环在别的 Agent 里不存在。

🔄

自动技能化

完成一个复杂任务后，Hermes 会自动分析过程，提炼出可复用的 Skill。你不需要手动编写 Skill 配置。

核心差异

📈

技能自我改进

Skill 不是写死的——每次使用中如果发现更好的做法，Skill 会自动更新。技能库随时间越来越强。

持续进化

👤

Honcho 用户建模

不是简单的偏好记录，而是一套辩证模型，持续构建对你的深层理解——决策模式、工作习惯、思维偏好。

Nous 自研

💡

主动提醒（Nudge）

Agent 会在对话中主动提醒自己：「这个信息重要，需要保存」。不是被动等人说「记住这个」。

主动性

适合谁：重度 Agent 用户 · 希望 AI 越用越懂自己的人 · 需要多模型切换的人 · 对「自我进化」理念认同的前沿用户。
官网：hermes-agent.nousresearch.com · GitHub：NousResearch/hermes-agent

🐾 QwenPaw — 「多 Agent 协作的原生平台」

一句话：它是唯一原生支持「Agent 之间互相通信」的平台

QwenPaw 的独特之处在于多 Agent 架构。你可以创建 reporter→editor→chief 这样的流水线，不同 Agent 各司其职、互相通信。Hermes 和 Codex 也能派生子 Agent，但 QwenPaw 是唯一把「Agent 间通信」作为一等公民设计的——chat_with_agent（同步）、submit_to_agent（异步后台任务）、check_agent_task（轮询结果）。

🤝

Agent 间通信

一个 Agent 可以给另一个 Agent 发消息、提交后台任务、轮询结果。这为复杂流水线提供了原语。

独有优势

🇨🇳

中文原生

基于通义千问生态，对中文内容的理解和生成天然更优。如果你的工作语言主要是中文，这是不可忽视的优势。

语言优势

📋

工作空间范式

AGENTS.md + SOUL.md + PROFILE.md + MEMORY.md + memory/ 每日笔记——清晰的文件记忆体系，Agent 人格和行为可精细调控。

结构化记忆

🔧

丰富的内置工具

Shell 执行 · 浏览器操控 · 桌面截图 · 文件搜索(grep/glob) · 图片/视频查看 · 多 Agent 列表与管理。

开箱即用

适合谁：需要多 Agent 协作流水线的用户 · 中文为主要工作语言 · 偏好阿里/通义生态 · 重视 Agent 人格可配置性。
GitHub：agentscope-ai/QwenPaw

🔷 Codex CLI — 「终端里的程序员」

一句话：它是目前最强的纯代码 Agent

Codex CLI 的定位极度聚焦——它就是帮你写代码的。不做通用助手、不做多 Agent 编排、不做自我进化。但它在代码这件事上做到极致：Sandbox 环境隔离、Git 深度集成、IDE（VS Code/Cursor/Windsurf）无缝体验、 ChatGPT 订阅直接可用。如果你主要用 AI 写代码，它是专为此生的。

🏖️

Sandbox 沙箱

代码在隔离沙箱中运行，不会污染你的本地环境。测试完确认安全后再合并——这是生产级代码 Agent 的必备能力。

安全隔离

🔗

IDE 深度集成

VS Code / Cursor / Windsurf 插件。在编辑器里直接与 Codex 对话，diff 预览、一键接受修改。

工作流顺畅

🔄

Git 原生

自动创建分支、提交、生成 PR 描述。Codex 对代码工作流的理解比其他 Agent 深一个层次。

版本控制

💳

ChatGPT 订阅即用

不需要额外付费、不需要配 API key。如果你已有 ChatGPT Plus/Pro，Codex CLI 直接可用。

零门槛

适合谁：程序员 · 已有 ChatGPT 订阅 · 主要用 AI 写代码而非通用任务 · 需要 IDE 集成体验。
官网：developers.openai.com/codex · GitHub：openai/codex

4 前沿使用者的态度与用法

基于 GitHub Discussions、Discord 社区、以及实际使用者的反馈，总结当前 Agent 用户的态度和典型工作流。

🎯 前沿用户的三类态度

🚀

「全押 Hermes」派

理由：闭环学习是质的差异。他们相信 Agent 的核心价值不在当下的功能列表，而在未来的成长曲线。一个越用越强的 Agent 比一个功能完备但不成长的 Agent 更有长期价值。他们愿意接受 Hermes 尚在快速迭代中的不稳定性。

长期主义

🔀

「双轨并行」派

最常见的前沿用户策略。Hermes 做日常助理和探索性工作（利用学习能力），Codex 做重型编码（利用专业化），QwenPaw 做多 Agent 流水线（利用通信架构）。不对立，按场景选用。

实用主义

🔒

「一套用到底」派

选定一个平台深耕。这类用户认为切换成本大于差异化收益。常见于：重度 Codex 用户（编码是绝对核心需求）、QwenPaw 用户（中文和多 Agent 流水线是刚需）、以及不想折腾的实用派。

深度派

⚡ 前沿用户的典型工作流

🌅

晨间简报（Agent 自动）

Cron 定时任务：每天早上 Agent 自动抓取新闻、整理日程、总结未读消息，推送到 Telegram。人到桌前，简报已经在手机上了。

异步工作

💻

Code Review 自动化

Agent 监控 GitHub PR，自动进行代码审查、生成 Review 意见、甚至直接修复简单问题。人只需要审批关键决策。

代码辅助

📝

文档与知识库维护

Agent 持续维护 MEMORY.md、项目文档、知识库 HTML。不需要人手写——对话中产生的知识自动沉淀为结构化文档。

知识沉淀

🔬

研究调研（Agent 自主）

给 Agent 一个调研主题，它自主搜索、阅读、整理、对比、输出报告。你只需定义问题和审核结论。

自动化研究

「最好的 Agent 不是你用得最多的，而是你忘了它在跑的那个。」
—— Hermes Agent Discord 社区的常见观点

🔑 前沿用户的共识

1

Agent 不是替代聊天，是替代操作

如果你只是问问题，用网页版就够了。Agent 的价值在于替你执行——操作文件、运行命令、维护项目。

2

记忆系统决定天花板

Agent 的长期价值取决于它多快能「懂你」。用一个月 Hermes 和用一个月 ChatGPT 网页版，前者已经建立了你的工作模型，后者每次都是从零开始。

3

CLI 是 AI Native 界面

不要试图让 Agent 用 GUI。CLI 是文本进文本出，天然适配 LLM。未来最好的 Agent 交互界面可能就是终端。

4

模型锁定是最大风险

只绑一个模型供应商是危险的。Hermes 的模型无关性是它被前沿用户青睐的重要原因——随时切换到当时最好/最便宜的模型。

5 到底怎么选？

没有标准答案，但有清晰的决策路径。

你的情况	推荐	理由
主要写代码	Codex CLI + Hermes 辅助	Codex 的 IDE 集成和 Sandbox 无可替代；Hermes 管代码以外的所有事
需要多 Agent 流水线	QwenPaw	原生多 Agent 通信是刚需，其他两个做不到同样流畅
中文为主要工作语言	QwenPaw 或 Hermes + Kimi/GLM	QwenPaw 中文原生最优；Hermes 接 Kimi/GLM 也足够好
追求「越用越懂我」	Hermes Agent	闭环学习系统是唯一选择，其他 Agent 不具备这个能力
不想被模型绑定	Hermes Agent	200+ 模型随时切换，Codex 锁 ChatGPT，QwenPaw 偏通义
已有 ChatGPT 订阅	Codex CLI 起步	零额外成本就能体验 Agent 模式，是最低门槛的入口
全部都要	Hermes + QwenPaw 双轨	Hermes 做日常助理（成长型），QwenPaw 做多 Agent 流水线（结构型），各取所长

当前建议（2026年6月）：先用好你已有的 QwenPaw。你的多 Agent 新闻社流水线（reporter→editor→chief）是 QwenPaw 的强项场景，不需要迁移。同时可以在 Hermes 上开一个并行实例，作为日常个人助理体验它的闭环学习。两者文件记忆体系互通（AGENTS.md/SOUL.md/PROFILE.md 范式一致），迁移成本很低。

AI Agent 入门完全指南