【系统学AI】06 AI Agent学习总览:从Chatbot到Agent OS的进化
2024年最热的AI话题是大模型2026年最热的不是更大的模型而是让模型动手干活——这就是Agent。从早期的AutoGPT到现在的Computer Use Agent、Manus、Claude CodeAgent已经从实验进入操作系统层。一句话总结AI Agent LLM 感知 规划 工具调用 记忆 长程自主。它不只是聊天而是能自主完成多步骤任务。从Chatbot到Agent是从回答问题到解决问题的质变2026年的Agent又进一步——从调用API进化到操作真实电脑AI正在从答题层变成操作层。1. 什么是AI Agent1.1 定义Agent是一个能感知环境、做出决策、采取行动以实现目标的自主系统。在LLM语境下LLM大脑 工具手和脚 记忆经验 规划策略 长程自主耐力 Agent2026年的关键变化原来Agent的工具只是API调用现在加上了操作真实电脑Computer Use——Agent可以直接看屏幕、移动鼠标、点击按钮、敲键盘。这把Agent的能力边界从程序员定义的API集合扩展到了任何人类能在电脑上做的事。1.2 与Chatbot的区别维度ChatbotAgent交互模式一问一答多步自主执行工具使用无可调用API/搜索/代码执行/操作电脑记忆无/短期短期长期记忆持续学习目标回答好一个问题完成一个任务自主时长单轮秒级数分钟到数小时GLM-5.1可达8小时示例“解释量子力学”“帮我调研竞品并写综述报告”1.3 生活中的类比概念类比LLM一个只会说话的顾问Chatbot顾问电话只能对话Agent顾问电脑手机秘书能执行任务Computer Use Agent会用你电脑的实习生可以打开任何应用、操作任何界面2. Agent的核心组件2026六大件2.1 六大组件┌─────────────────────────────────────────────────┐ │ Agent │ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │ 规划 │ │ 记忆 │ │ 工具 │ │感知层│ │自主层│ │ │ │Plan │ │Memory│ │Tools │ │Sense │ │Auto │ │ │ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ │ │ └────────┼────────┼────────┼────────┘ │ │ │ │ │ │ │ └────────┼────────┘ │ │ ┌────┴────┐ │ │ │ LLM │ │ │ │ (大脑) │ │ │ └─────────┘ │ └─────────────────────────────────────────────────┘规划Planning把大目标拆成小步骤决定执行顺序记忆Memory⭐ 2026年Agent发展最快的领域短期记忆当前对话上下文长期记忆历史交互、知识库、用户画像Memory工程MEMENTO微软、claude-mem、cognee、Zep等专项工具爆发工具Tools搜索引擎、代码执行器、API调用文件读写、数据库查询MCP协议2024年11月Anthropic推出2025年12月捐赠Linux基金会2026年成事实标准全球5000 MCP Server可用感知层Sense⭐ 2025-2026 新增能力屏幕理解Computer Use多模态输入图像、视频、音频自主层Autonomy⭐ 2026新维度长程任务执行GLM-5.1单任务可跑8小时/1700步定时调度Claude Code的/schedule事件驱动Routines研究预览LLM大脑理解指令、推理决策、生成响应2.2 Agent LoopAgent的核心运行循环1. 接收任务/观察环境 2. LLM思考当前状态是什么下一步该做什么 3. 选择并执行动作调用工具/操作电脑/生成文本 4. 观察执行结果 5. 更新记忆短期长期 6. 回到步骤2直到任务完成这是经典的OODA循环Observe-Orient-Decide-Act2026年加上了Memorize变成OODA-M循环。OODA循环观察-定向-决策-行动循环由美军飞行员John Boyd提出原本用于战斗机空战决策。AI Agent借用这个框架描述持续感知环境并行动的运行机制。3. Agent vs Workflow关键区分这是理解Agent最重要的一组概念。3.1 Workflow工作流人定义路径AI执行步骤。用户 → 步骤1(搜索) → 步骤2(总结) → 步骤3(翻译) → 输出路径是固定的AI只在每个步骤内做填空确定性高可控性强适合流程明确的任务3.2 Agent自主代理AI定义路径自主决策。用户 → Agent思考 → 调用工具A → 观察结果 → Agent思考 → 调用工具B → ... → 输出路径是动态的由Agent实时决定Agent根据中间结果调整策略灵活性高可控性低适合开放性、探索性任务3.3 何时用Workflow何时用Agent场景推荐方案原因客服FAQWorkflow流程确定不需要探索数据分析Workflow步骤固定获取→清洗→分析→可视化市场调研Agent需要搜索、判断、迭代代码debugAgent需要试错和动态调整多轮谈判Agent不可预测需要策略浏览器自动化Computer Use Agent网页结构复杂规则难穷举Anthropic的建议从Workflow开始只在Workflow无法覆盖时引入Agent。简单问题用复杂方案是过度工程。4. 2026年Agent生态全景图4.1 商业Agent四象限通用任务 ▲ Manus │ ChatGPT Agent Mode (中国) │ (OpenAI) │ ────────────┼────────────→ 自主性高 │ Devin │ Claude Agents (代码专精) │ (Claude Code Agent SDK) │ 代码任务4.2 主流Agent产品产品厂商定位杀手特性月费Claude AgentsAnthropic通用Agent基础设施Claude Code Agent SDK Subagents2026最可靠生产方案$20-200ManusMonica中国/新加坡全球首款通用AI AgentGAIA基准86.5%2025年3月发布即爆火2025.12 ARR破1亿美元$39DevinCognitionAI软件工程师专精GitHub Issue修复自主写代码开PR$500OpenAI Operator / Agent ModeOpenAI浏览器Agent消费场景下单/订票/填表集成ChatGPT Pro含$200/月GLM-5.1智谱AI长程自主Agent单任务可执行8小时/1700步纯华为昇腾910B训练按APIManus2025年3月6日由Monica团队发布被誉为全球首款通用AI Agent。能自主筛简历、找房、做股票分析、规划旅行——给个任务就走人云端异步跑完通知你。GAIA基准86.5%超越OpenAI Deep Research。2025年12月Meta以约20亿美元收购2026年4月被中国发改委叫停《外商投资安全审查办法》2021年实施以来首个被禁的AI收购案。DevinCognition公司2024年推出的AI软件工程师Agent。点GitHub Issue让它修会自己写代码跑测试开PR。但2026年实测发现定义清晰的小任务bug修复、依赖升级能做好模糊任务会跑几小时然后产出无用PR。$500/月起。GLM-5.1智谱AI 2026年5月发布的长程自主Agent模型。SWE-Bench Pro 58.4%Terminal-Bench 2.0 63.5%AIME 2026 95.3%。最炸裂的是长程自主——单任务可连续运行8小时、1700步。2024年Agent能做20步GLM-5.1能做1700步是其团队Lou的原话。4.3 Agent OS2026年的临界点2026年4月业界出现一个新概念Agent OS——AI不再是聊天框里的助手而是操作系统层的存在。传统AI 浏览器/聊天框 ↓ Plugins ↓ Connectors 2026 Agent OS: 操作系统 ↓ Computer Use操作屏幕 ↓ MCP连接工具 ↓ Subagents多智能体并行 ↓ Scheduled Tasks定时执行Agent OS的关键认知AI从答题层answering layer变成操作层operating layer。Anthropic Computer Use让Claude能控制电脑OpenAI Codex桌面化让Codex成为多Agent指挥中心MCP成为跨工具的通信协议——这三条线在2026年4月W16同周合流“用电脑的AI”“写代码的AI”标准化协议在OS层统一了。5. 2026年五大范式从三大升级5.1 ReAct边想边做——每步先思考再行动观察结果继续思考。Thought: 我需要搜索最新的AI新闻 Action: search(AI news 2026) Observation: [搜索结果...] Thought: 找到了3篇相关文章我需要总结 Action: summarize([文章1, 文章2, 文章3]) ...适用通用任务、动态决策。5.2 Plan-then-Execute先想好再做——先制定完整计划再逐步执行。Plan: 1. 搜索AI新闻 2. 筛选最近3天的 3. 总结要点 4. 翻译成中文 5. 发送到企业微信 Execute step 1 → step 2 → step 3 → ...适用步骤可预定义、Web Agent场景成功率比ReAct高80%。5.3 Multi-Agent分工协作——多个Agent各司其职通过协调机制配合。Researcher Agent → 收集信息 Writer Agent → 撰写内容 Reviewer Agent → 审核质量2026年主流实现Anthropic SubagentsClaude Code的核心机制主Agent调度子Agent并行干活OpenAI Swarm/Agents SDK2025年发布对话驱动的多AgentCrewAI角色化Multi-Agent框架5.4 Computer Use Agent ⭐ 2025-2026新增操作电脑而非调用API——Agent通过看屏幕、移鼠标、敲键盘来完成任务。任务打开Excel填入财报数据导出PDF 1. 截屏 → LLM看屏幕 2. LLM决策点击Excel图标 3. 执行鼠标点击坐标(100, 200) 4. 截屏 → 验证Excel已打开 5. ... 循环至任务完成代表产品Anthropic Computer Use2024.10公测APIOpenAI Operator2025初Anthropic Claude桌面应用 Computer Use2026.03Pro/Max用户OpenClaw2025-2026开源爆款奥地利独立开发者适用浏览器自动化、桌面应用操作、传统软件无API的场景。5.5 Long-Horizon Autonomous Agent ⭐ 2026新增长程自主执行——单任务可持续数小时甚至数天。2024年: Agent能跑20步 2025年: Devin能跑数百步 2026年: GLM-5.1能跑1700步/8小时关键技术自动上下文压缩Memory Compaction长任务中Claude Code能压缩历史对话持久化记忆MEMENTO、claude-mem把推理中间态存为可寻址记忆定时调度Claude Code的/schedule、Routines适用CI修复、大型代码迁移、多日数据分析。6. Agent发展简史2025-2026更新版时间里程碑意义2023.03AutoGPT / BabyAGI最早爆火的Agent项目证明LLM可以自主执行2023.06LangChain 0.1Agent开发框架化2023.10ReAct论文广泛实践Thought-Action-Observation成为标准范式2024.03DevinCognition第一个AI软件工程师Agent2024.10Anthropic Computer UseClaude首发操作电脑能力Agent进入OS层2024.11MCP协议发布Anthropic推出统一工具调用协议2025.02Claude Code发布Agent化的命令行编程工具Boris Cherny用它完成100%日常编码2025.03Manus发布全球首款通用AI AgentGAIA 86.5%邀请码炒到5-10万2025.05Claude Code GA跟Claude 4一起正式商用2025.09Claude Agent SDK开放Python/TypeScript两个版本Agent基础设施开放2025-26Devin/Manus商业化Manus年底ARR破1亿美元2025.12MCP捐赠Linux基金会跨厂商标准协议Apple/OpenAI跟进2026.01Apple Xcode原生支持MCPMCP成跨平台标准2026.03Claude Code集成Computer UseSWE-Bench 80.8%2024年还是个位数2026.04Codex多Agent指挥中心OpenAI对标ClaudeAgent OS之争白热化2026.04GLM-5.1长程自主单任务1700步/8小时纯华为昇腾训练2026.05Pinecone Nexus发布向量数据库厂商转型Agent知识引擎7. Agent的挑战挑战说明2026进展可靠性Agent可能走错路、死循环Claude 4.7知道何时停止 主动求澄清成本多步调用消耗大量TokenMemory Compaction 小模型路由DeepSeek V4-Flash可观测性难以追踪Agent的决策过程Langfuse、Phoenix、Arize、LangSmith等成熟安全性Agent调用工具可能造成损害沙箱 权限控制 Constitutional AI 2.0评测Agent行为多样性大难以标准化Terminal-Bench 2.0、SWE-Bench Pro、GAIA成熟审计取证2026新增Agent操作和人类操作没法区分业界尚未解决——Computer Use模糊了人vs AI的取证边界审计困境当Agent就是用户本身同一个鼠标、键盘、屏幕的时候传统取证手段没法区分人类和AI的操作。这是2026年Agent OS化带来的全新合规问题企业级部署绕不开。8. 本系列学习路线2026版篇序主题核心问题1本篇Agent学习总览Agent是什么2026生态全景2ReAct如何边想边做3Plan-then-Execute如何先规划再执行4Multi-Agent架构多Agent如何协调5Anthropic Agent设计业界标杆怎么设计Agent6Agent开发框架用什么框架开发Agent9. 面试高频问题Q1Agent和Workflow的核心区别Workflow是人定义执行路径AI只做填空Agent是AI自己决定执行路径。Workflow确定性高但灵活性低Agent灵活性高但可控性低。Q2为什么不是所有场景都适合AgentAgent有三个固有风险(1) 可能走错路且难以预判(2) 成本不可控多步调用(3) 调试困难。流程明确的任务用Workflow更可靠。Q3Agent的记忆如何实现短期记忆用对话上下文prompt window长期记忆用向量数据库存储历史交互的embedding检索时取回相关片段。2026年还有Memory Compaction自动压缩历史、专项Memory工具MEMENTO、claude-mem、Zep等新方案。Q4Computer Use和传统Tool Calling的本质区别Tool Calling是调用程序员预先定义好的APIComputer Use是像人一样操作任何软件。前者受限于API开放程度后者覆盖了所有桌面应用——包括没有API的传统软件。代价是不稳定屏幕识别可能错位和慢每步都要截屏理解。Q5MCP协议解决了什么问题MCPModel Context Protocol是2024年11月Anthropic推出的开放标准类似AI界的USB-C。原来每个AI应用要自己适配每个工具GitHub/Slack/数据库MCP统一了协议——任何MCP兼容的AI可以即插即用5000 MCP Server。2025年12月捐赠Linux基金会后成为跨厂商标准。Q62026年的Agent和2024年的有什么本质区别三个维度(1)从API到OS层Computer Use让Agent能操作真实电脑(2)从单步到长程从20步到1700步的自主能力(3)从孤立到协议化MCPA2A让多Agent生态互通。本质上是从工具到员工的跃迁。总结概念关键点Agent定义LLM 感知 规划 工具 记忆 长程自主vs Chatbot从回答问题到解决问题vs WorkflowAI定义路径 vs 人定义路径五大范式ReAct / Plan-then-Execute / Multi-Agent /Computer Use/Long-Horizon Autonomous2026新维度Agent OS / MCP生态 / Memory工程 / Subagents核心挑战可靠性、成本、可观测性、安全性、审计取证Agent是LLM从聊天工具到生产力工具的关键跃迁。2026年的Agent已经不只是调用API的智能体而是能在操作系统层运转、连续工作数小时、跨多个应用协作的数字员工。理解Agent架构是构建下一代AI应用的基础。路易乔布斯 © 2026 | AI Agent RAG学习计划 · 模块01-Agent · 第一篇参考文献Anthropic, “Building Effective Agents”, 2024.12Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, 2022Anthropic, “Computer Use API”, 2024.10Manus, “GAIA Benchmark Results”, 2025.03Z.ai, “GLM-5.1: Long-Horizon Autonomous Agent”, 2026.04