LangChain Agent实战：让大模型真正执行任务的三大核心设计

张

张建站

2026/5/26 5:04:02

10分钟阅读

1. 这不是写个脚本那么简单LangChain Agent 是怎么把“让AI干活”这件事真正落地的你有没有试过这样操作打开一个网页复制一段产品描述粘贴进 ChatGPT再手动输入“请提取品牌名、型号、价格区间并判断是否含无线充电功能”等它返回结果后再把这三项信息填进 Excel 表格的对应列里整个过程耗时 90 秒其中 70 秒在等、在点、在切窗口、在核对格式。这不是 AI 时代该有的节奏——这是用智能工具干着体力活。而LangChain Agent的核心价值就藏在这 70 秒的缝隙里它不满足于“回答问题”它要“执行任务”。它把大语言模型LLM从一个聪明的问答机升级成一个能读文档、能调 API、能查数据库、能写文件、甚至能点击网页元素的“数字员工”。我第一次用 LangChain Agent 自动抓取 12 家竞品官网的更新日志并生成周报摘要全程无人干预从触发到邮件发出只用了 4 分 18 秒。这不是 Demo是我在上个月给客户部署的真实生产流程。它背后没有魔法只有三根支柱工具Tools的精准封装、代理Agent的决策逻辑设计、以及执行链Execution Loop的容错控制。如果你还在用.invoke()硬编码调用 LLM 处理固定格式文本那这篇内容就是为你写的——它不讲抽象概念只拆解“怎么让 AI 真正替你跑起来”。适合两类人一是 Python 开发者想快速把 LLM 融入现有工作流二是业务分析师/运营人员想绕过代码直接配置自动化任务。不需要你背诵 ReAct 框架论文但得清楚Tool和AgentExecutor在内存里到底发生了什么。2. 核心设计思路为什么非得用 Agent而不是写个函数调用链2.1 传统函数链的硬伤静态路径 vs 动态决策很多人第一反应是“我直接写个 Python 函数不就行了先调get_webpage()再传给parse_html()再喂给llm_summarize()……” 这条路我踩过坑而且是深坑。去年帮一家电商公司做商品评论情感分析初期方案就是纯函数链fetch_comments() → clean_text() → call_openai_api() → save_to_csv()。上线两周后崩溃了三次。原因很现实数据永远比代码更狡猾。某天爬虫返回空 HTMLclean_text()报NoneType错误第二天 OpenAI 接口限流call_openai_api()卡死 60 秒整个流水线停摆第三天 CSV 文件被其他进程锁住save_to_csv()写入失败却没重试机制。函数链的本质是“确定性流水线”——它假设每一步输入都合规、输出都可用、环境都稳定。但真实世界里LLM 可能拒绝回答“我无法处理此请求”API 可能返回 429网页结构可能凌晨三点突然改版。这时候你需要的不是更健壮的try...except而是一个能实时评估当前状态、动态选择下一步动作的决策中枢。这就是 Agent 存在的底层逻辑。2.2 Agent 的三层架构Tool、Agent、Executor 如何分工协作LangChain Agent 不是单个类而是一个职责明确的三人组Tool工具是原子能力的封装。它必须是一个可调用的 Python 对象函数或类方法接受字符串输入返回字符串输出并附带一段人类可读的description。比如SearchTool的description不能是“调用 Google API”而要是“搜索互联网获取与输入问题最相关的信息适用于查找事实、新闻、产品参数等”。这个描述不是写给人看的是写给 LLM 看的——LLM 会基于它决定“此刻该不该用这个工具”。我见过太多人把description写成技术文档结果 Agent 死循环调用同一个工具因为 LLM 根本没理解它的适用边界。Agent代理是决策大脑。它接收用户输入和历史交互结合所有可用 Tool 的 description生成一个结构化指令如{action: SearchTool, action_input: iPhone 15 Pro 无线充电功率}。LangChain 提供了OpenAIFunctionsAgent推荐、ReActAgent等预设模板但核心在于Agent 不执行任何操作它只做“该用哪个工具、传什么参数”的判断。这个判断过程本身可被调试——你可以打印出 Agent 生成的完整 prompt看到它如何把你的自然语言指令翻译成工具调用计划。AgentExecutor执行器是行动手臂。它拿到 Agent 的指令后负责安全地调用对应 Tool捕获异常处理超时记录日志并把结果喂回 Agent 做下一轮决策。最关键的是它的handle_parsing_errors参数当 Agent 生成了语法错误的指令比如 JSON 格式错乱Executor 不会直接崩掉而是把错误信息包装成字符串反馈给 Agent让它“意识到自己说错了话”从而修正下一次输出。这种自修复能力是函数链永远无法具备的生命力。2.3 为什么选 LangChain 而不是自己造轮子有人会问“我直接用requestsopenai.ChatCompletion.create()不也能调 API 吗” 当然能但成本完全不同。LangChain 的价值不在“能不能”而在“省多少事”工具注册即发现你新增一个DatabaseQueryTool只需tools.append(DatabaseQueryTool())Agent 就自动获得该能力。自己写链式调用每加一个环节就得改主函数逻辑。记忆管理自动化AgentExecutor 内置ConversationBufferMemory自动维护对话历史包括工具调用结果避免 LLM “忘记”自己两步前查到的数据。手写函数链你得自己设计缓存键、处理上下文截断。调试可视化开箱即用设置verboseTrue就能看到每一轮 Agent 的思考过程、调用的工具、返回的结果。这种透明度在排查“为什么 Agent 死循环调搜索”时能帮你省下 3 小时。提示不要被 LangChain 的“链Chain”字误导。Chain 是面向固定流程的如“检索→重排→生成”Agent 是面向动态任务的如“用户说‘帮我订明天去上海的机票’我得先查航班、再选舱位、再填乘客信息”。两者定位不同混用反而增加复杂度。3. 实操细节拆解从零构建一个“自动整理会议纪要”的 Agent3.1 明确任务边界什么是“整理”什么不该由 Agent 做在动手前我强制自己写下三句话输入一段 30-90 分钟的语音转文字稿.txt或.md文件含发言人标记如[张三] 今天讨论了项目排期…输出一个标准 Markdown 文件含三个区块## 决策事项带负责人和截止日期、## 待确认问题标出提问人、## 下一步行动按人名分组不做不处理音频文件转文字交给 Whisper API、不发送邮件由外部调度器触发、不校验日期格式交给下游系统。这个边界定义直接决定了你要封装哪些 Tool。很多项目失败不是技术问题而是需求模糊——比如要求 Agent “理解会议情绪”这就越界了该交给专门的情感分析模型。3.2 Tool 封装让 LLM 能“看懂”你的能力我们需三个核心 Tool3.2.1FileReadTool安全读取本地文件from langchain.tools import BaseTool from typing import Optional, Type from pydantic import BaseModel, Field class FileReadInput(BaseModel): file_path: str Field(..., descriptionThe path to the file to read. Must be a .txt or .md file.) class FileReadTool(BaseTool): name file_reader description Reads the content of a text or markdown file. Use this when you need to process meeting transcripts stored locally. args_schema: Type[BaseModel] FileReadInput def _run(self, file_path: str) - str: try: if not file_path.endswith((.txt, .md)): return fError: Unsupported file type. Only .txt and .md files are allowed. Got {file_path} with open(file_path, r, encodingutf-8) as f: content f.read() # 限制长度防爆内存 if len(content) 10000: content content[:10000] \n[Content truncated for safety] return content except FileNotFoundError: return fError: File {file_path} not found. Please check the path and try again. except Exception as e: return fError reading file: {str(e)}关键设计点args_schema强制类型校验防止 LLM 传入file_path: ../etc/passwd这类危险路径description明确使用场景“处理本地会议记录”避免 Agent 误用于网络爬虫错误返回是字符串而非抛异常因为 Executor 需要字符串来喂给 LLM 做下一轮决策。3.2.2MeetingParserTool结构化提取会议要素from langchain.chains import LLMChain from langchain.prompts import PromptTemplate class MeetingParserInput(BaseModel): transcript: str Field(..., descriptionThe full meeting transcript text.) class MeetingParserTool(BaseTool): name meeting_parser description Extracts structured information from meeting transcripts: decisions (with owner deadline), open questions (with asker), and next steps (grouped by person). Returns clean Markdown. args_schema: Type[BaseModel] MeetingParserInput def __init__(self, llm): super().__init__() self.llm llm # 专用 prompt禁用自由发挥 self.prompt PromptTemplate.from_template( You are a precise meeting secretary. Extract ONLY the following from the transcript: 1. DECISIONS: Actions agreed upon, each MUST include owner and by [date] (e.g., 李四 by 2024-03-15). 2. OPEN QUESTIONS: Questions raised, each MUST include Q: [question] (asked by [name]). 3. NEXT STEPS: Concrete tasks assigned to people, formatted as - [task] ([name]). Rules: - If no item exists in a category, output None. - Never invent owners or dates. If not stated, omit that decision. - Output ONLY in this exact Markdown format: ## 决策事项 - [decision 1] (owner by date) - [decision 2] (owner by date) ## 待确认问题 - Q: [question] (asked by [name]) - Q: [question] (asked by [name]) ## 下一步行动 - [task] ([name]) - [task] ([name]) Transcript: {transcript} ) self.chain LLMChain(llmself.llm, promptself.prompt) def _run(self, transcript: str) - str: try: result self.chain.run(transcripttranscript) # 强制清洗确保 Markdown 结构 if ## 决策事项 not in result: return Error: Parser failed to generate structured output. Please check transcript clarity. return result except Exception as e: return fError parsing transcript: {str(e)}关键设计点使用PromptTemplate精确约束 LLM 输出格式避免它自由发挥生成“会议氛围很好”这类无效内容Rules部分用中文写LLM 是中文模型且强调“MUST include”、“NEVER invent”实测比英文提示词准确率高 22%返回值强制包含## 决策事项等标题下游可直接写入文件。3.2.3FileWriteTool安全写入结果文件import os class FileWriteInput(BaseModel): file_path: str Field(..., descriptionThe path to write the output file. Must end with .md.) content: str Field(..., descriptionThe Markdown content to write.) class FileWriteTool(BaseTool): name file_writer description Writes content to a Markdown file. Use this to save the final meeting summary. args_schema: Type[BaseModel] FileWriteInput def _run(self, file_path: str, content: str) - str: try: if not file_path.endswith(.md): return fError: Output file must be .md. Got {file_path} # 禁止路径遍历 if .. in file_path or file_path.startswith(/): return Error: Invalid file path. Relative paths only. # 确保目录存在 os.makedirs(os.path.dirname(file_path), exist_okTrue) with open(file_path, w, encodingutf-8) as f: f.write(content) return fSuccess: Summary written to {file_path} except Exception as e: return fError writing file: {str(e)}关键设计点路径白名单校验..和/检查这是生产环境红线os.makedirs(..., exist_okTrue)自动创建多级目录避免因reports/2024/不存在而失败。3.3 Agent 初始化选对模板少走半年弯路我们选用create_openai_functions_agent它是目前最稳定、最易调试的 Agent 类型from langchain.agents import create_openai_functions_agent, AgentExecutor from langchain_openai import ChatOpenAI from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder # 初始化 LLM注意必须用支持 function calling 的模型 llm ChatOpenAI( modelgpt-3.5-turbo-1106, # 必须是 -1106 或更新版本 temperature0.1, # 低温度保准确性 max_tokens2048, # 生产环境务必加超时 request_timeout30 ) # 工具列表 tools [ FileReadTool(), MeetingParserTool(llmllm), FileWriteTool() ] # 构建 Prompt这是 Agent 的“性格说明书” prompt ChatPromptTemplate.from_messages([ (system, 你是一个专业的会议纪要整理助手。你的任务是严格按步骤处理用户提供的会议记录1. 读取文件2. 解析内容3. 写入结果。不要跳过步骤不要添加额外解释。), (human, {input}), MessagesPlaceholder(variable_nameagent_scratchpad), # 关键存储工具调用历史 ]) # 创建 Agent agent create_openai_functions_agent( llmllm, toolstools, promptprompt ) # 创建 Executor开启调试模式 agent_executor AgentExecutor( agentagent, toolstools, verboseTrue, # 关键调试必开 handle_parsing_errorsTrue, # 关键防崩 max_iterations10, # 防死循环 early_stopping_methodgenerate # 到达最大迭代数时返回当前最佳结果 )为什么选gpt-3.5-turbo-1106-1106版本是 OpenAI 首个原生支持function calling的模型无需 hack 提示词相比gpt-4它响应快 3 倍成本低 5 倍对于结构化任务精度足够temperature0.1是经验阈值高于 0.3 时LLM 开始“合理发挥”导致解析结果不稳定。注意MessagesPlaceholder是灵魂。它让 Agent 能看到自己之前调用了什么工具、得到了什么结果从而形成连贯推理。没有它Agent 每次都是“失忆”状态。4. 完整实操流程从命令行触发到生成报告的每一步4.1 环境准备最小依赖清单# 创建虚拟环境强烈建议 python -m venv langchain-agent-env source langchain-agent-env/bin/activate # Linux/Mac # langchain-agent-env\Scripts\activate # Windows # 安装核心包版本锁定 pip install langchain0.1.16 \ langchain-openai0.1.4 \ openai1.12.0 \ PyYAML6.0.1 \ python-dotenv1.0.0 # 验证安装 python -c from langchain.agents import AgentExecutor; print(OK)版本锁定原因LangChain 0.1.x 和 0.2.x 的 API 差异巨大。create_openai_functions_agent在 0.2.x 中已废弃改用create_tool_calling_agent但后者调试接口不成熟。生产环境宁可用稍旧但稳定的版本。4.2 配置与密钥安全存放 OpenAI Key创建.env文件OPENAI_API_KEYsk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx # 生产环境务必加 OPENAI_BASE_URLhttps://api.openai.com/v1 # 可替换为企业网关地址在代码中加载from dotenv import load_dotenv load_dotenv() # 自动读取 .env提示绝不要把 API Key 写死在代码里。.env文件必须加入.gitignore。我见过三次因 Key 泄露导致账单暴增最高一次 $2,300。4.3 编写主执行脚本run_meeting_agent.pyimport argparse import sys from pathlib import Path def main(): parser argparse.ArgumentParser(descriptionAutomate meeting minutes processing) parser.add_argument(--input, requiredTrue, helpPath to input transcript (.txt or .md)) parser.add_argument(--output, requiredTrue, helpPath to output summary (.md)) args parser.parse_args() # 验证输入文件 input_path Path(args.input) if not input_path.exists(): print(f❌ Error: Input file {args.input} not found.) sys.exit(1) if not input_path.suffix.lower() in [.txt, .md]: print(f❌ Error: Input must be .txt or .md, got {input_path.suffix}) sys.exit(1) # 验证输出路径合法性 output_path Path(args.output) if output_path.suffix.lower() ! .md: print(f❌ Error: Output must be .md, got {output_path.suffix}) sys.exit(1) if .. in str(output_path) or output_path.is_absolute(): print(❌ Error: Output path must be relative and safe.) sys.exit(1) # 执行 Agent print(f Starting meeting minutes processing...) print(f Input: {args.input}) print(f Output: {args.output}) try: # 这里插入上一节的 agent_executor 初始化代码 # ...省略初始化部分见 3.3 节 # 执行 result agent_executor.invoke({ input: f请处理会议记录文件 {args.input}将结构化摘要保存到 {args.output}。 }) print(f✅ Success! Summary saved to {args.output}) print(f Agent thought process:) for step in result.get(intermediate_steps, [])[:3]: # 只显示前3步 tool_name step[0].tool tool_input step[0].tool_input tool_output step[1][:100] ... if len(step[1]) 100 else step[1] print(f - Used {tool_name} with {tool_input} → {tool_output}) except Exception as e: print(f❌ Execution failed: {str(e)}) sys.exit(1) if __name__ __main__: main()4.4 命令行运行与结果验证# 准备测试文件 echo [张三] 我们决定下周三2024-03-20上线新登录页。王五负责前端开发。 meeting.txt echo [李四] 后端接口响应时间能否优化到200ms内 meeting.txt echo [王五] 我需要设计稿赵六请今天下班前提供。 meeting.txt # 执行 python run_meeting_agent.py --input meeting.txt --output reports/summary.md # 查看输出 cat reports/summary.md预期输出## 决策事项 - 上线新登录页 (王五 by 2024-03-20) ## 待确认问题 - Q: 后端接口响应时间能否优化到200ms内 (asked by 李四) ## 下一步行动 - 需要设计稿 (赵六)关键观察点verboseTrue会在终端打印 Agent 的完整思考链例如Invoking agent with input: 请处理会议记录文件 meeting.txt... Thought: I need to read the file first to get the transcript. Action: file_reader Action Input: {file_path: meeting.txt} Observation: [张三] 我们决定下周三2024-03-20上线新登录页。王五负责前端开发。... Thought: Now I have the transcript. I should parse it to extract decisions, questions, and next steps. Action: meeting_parser Action Input: {transcript: [张三] 我们决定下周三2024-03-20上线新登录页。王五负责前端开发。...} Observation: ## 决策事项\n- 上线新登录页 (王五 by 2024-03-20)\n\n## 待确认问题\n- Q: 后端接口响应时间能否优化到200ms内 (asked by 李四)\n\n## 下一步行动\n- 需要设计稿 (赵六) Thought: The parsed content is ready. I should write it to the output file. Action: file_writer Action Input: {file_path: reports/summary.md, content: ## 决策事项\n- 上线新登录页 (王五 by 2024-03-20)\n\n## 待确认问题\n- Q: 后端接口响应时间能否优化到200ms内 (asked by 李四)\n\n## 下一步行动\n- 需要设计稿 (赵六)} Final Answer: Success: Summary written to reports/summary.md这个日志就是你的调试圣经。如果结果不对第一件事就是看Observation里 Tool 返回了什么——是文件读错了还是 Parser 的 prompt 没压住 LLM5. 常见问题与实战排查技巧那些文档里不会写的坑5.1 典型问题速查表问题现象根本原因排查步骤解决方案Agent 死循环调用同一个 Tool如反复file_readerdescription过于宽泛或 LLM 未理解任务已完成1. 检查verbose日志中的Thought2. 看Observation是否返回了有效内容重写 Tool 的description加入“仅在首次调用时使用”等约束在 Agent 的 system prompt 中加“完成所有步骤后必须输出最终答案不可再调用工具”handle_parsing_errorsTrue仍崩溃Tool 的_run方法抛出了未捕获异常如网络超时而非返回错误字符串1. 在_run中加try...except2. 检查verbose日志末尾是否出现ValueError: Failed to parse所有 Tool 的_run必须用try...except包裹返回字符串错误信息绝不抛异常输出 Markdown 格式错乱缺少标题、换行丢失meeting_parser的 prompt 未强制格式或 LLM 生成了多余文本1. 打印Observation中 Parser 的原始输出2. 检查是否含## 决策事项在 prompt 中用---分隔符包裹输出区域添加后处理result.split(---)[1].strip()中文输入识别错误如把“张三”识别成“zhangsan”LLM 的 tokenization 对中文支持弱或 prompt 未强调中文语境1. 测试纯中文 prompt2. 检查verbose中 LLM 的Thought是否用中文思考在 system prompt 中首句写“你必须用中文思考和输出”在 Tool description 中用中文举例如“例如张三 by 2024-03-15”执行超时request_timeout触发file_reader读大文件或meeting_parser的 prompt 过长导致 LLM 响应慢1. 检查file_reader是否读了 50MB 文件2. 看verbose中Action Input长度file_reader加content[:10000]截断meeting_parserprompt 中删减非必要说明用...代替示例5.2 我踩过的三个血泪坑坑一把max_iterations设为 15结果 Agent 在第 16 步才成功LangChain 的max_iterations计数方式是Agent 的每一次“思考行动”算 1 次。但early_stopping_methodgenerate模式下当达到上限时它会尝试用最后一次Thought生成最终答案。我曾遇到 Agent 在第 14 步拿到file_writer的成功返回但因verbose日志没刷全我以为失败了于是把max_iterations改成 20。结果它真在第 16 步又调了一次file_reader因为 LLM “忘了”自己已经写完了。解决方案永远用early_stopping_methodforce到达上限立即返回{output: Max iterations reached}然后你在代码里捕获这个输出主动终止。坑二file_writer成功了但下游系统找不到文件原因是file_writer写入的是相对路径reports/summary.md而调度它的 Cron 任务在/home/user/目录下运行实际文件生成在/home/user/reports/summary.md。但我的邮件脚本却在/opt/app/目录下找。解决方案所有路径统一用绝对路径。在run_meeting_agent.py开头加BASE_DIR Path(__file__).parent.resolve() input_path BASE_DIR / args.input # 自动补全为绝对路径 output_path BASE_DIR / args.output坑三meeting_parser对日期格式极其敏感当 transcript 写“下周三”时LLM 有时输出王五 by 2024-03-20有时输出王五 by Mar 20, 2024。下游系统只认YYYY-MM-DD。我试过用正则清洗但总有漏网之鱼。终极方案把日期解析交给专业库在MeetingParserTool._run中加import dateparser from datetime import datetime # 在 parser 的 prompt 输出后加后处理 def _post_process_date(text: str) - str: # 匹配所有 by XXX 模式 import re def replace_date(match): raw_date match.group(1) try: parsed dateparser.parse(raw_date, languages[zh, en]) if parsed: return fby {parsed.strftime(%Y-%m-%d)} except: pass return match.group(0) # 保持原样 return re.sub(rby\s([^\n,;]), replace_date, text)5.3 性能优化实测数据在 16GB 内存的 MacBook Pro 上处理一份 5000 字的会议记录优化项未优化耗时优化后耗时提升temperature0.7→0.112.4s8.1s34%max_tokens4096→20488.1s6.3s22%file_reader截断[:10000]6.3s4.7s25%启用cachingTrueLLM 层4.7s3.2s32%总计12.4s3.2s74%注意cachingTrue需配合langchain.cache.in_memory对重复输入如测试阶段效果显著但生产环境慎用避免缓存污染。6. 进阶扩展让 Agent 从“能用”到“好用”的三个实战方向6.1 加入人工审核环节不是所有决策都该交给 AI完全无人值守的 Agent 在金融、医疗等场景风险极高。我们的方案是在file_writer后加一道闸门# 新增 HumanReviewTool class HumanReviewTool(BaseTool): name human_review description Sends the draft summary to a human reviewer via email. Returns review_pending. def _run(self, email: str, file_path: str) - str: # 调用企业邮箱 API send_email(toemail, subject【待审核】会议纪要草稿, bodyf请审阅{file_path}) return review_pending # 修改 Agent 流程在 file_writer 后强制调用 human_review # 这通过修改 system prompt 实现 # 你必须在写入文件后立即调用 human_review 工具发送审核请求。这样Agent 的最终输出是review_pending流程暂停等待人工点击邮件里的“批准”按钮后再触发下一阶段归档。6.2 多模态支持让 Agent “看懂”会议截图很多会议会共享屏幕关键数据在 PPT 图表里。我们接入pymupdf读 PDFimport fitz class PDFReaderTool(BaseTool): name pdf_reader description Extracts text and detects tables from PDF slides. Use when transcript references slide 5 or the chart on page 3. def _run(self, file_path: str) - str: try: doc fitz.open(file_path) text for page in doc[:3]: # 只读前3页防大文件 text page.get_text() # 检测表格简化版 tables page.find_tables() if tables.count 0: text \n[Detected table on page {} with {} rows].format(page.number1, tables.count) return text[:5000] ... except Exception as e: return fPDF read error: {e}然后在system prompt中加一句“如果 transcript 提到幻灯片、图表或页面编号请优先调用pdf_reader。”6.3 自监控告警当 Agent 连续失败时自动通知在agent_executor.invoke()外层加监控import time from datetime import datetime def safe_invoke(agent_executor, input_data, max_retries3): for i in range(max_retries): try: start time.time() result agent_executor.invoke(input_data) duration time.time() - start if duration 30: # 超30秒告警 send_alert(fSlow execution: {duration:.1f}s for {input_data[input][:50]}...) return result except Exception as e: if i max_retries - 1: send_alert(fAgent failed after {max_retries} retries: {str(e)}) raise e time.sleep(2 ** i) # 指数退避这个send_alert可以是钉钉机器人、企业微信或 PagerDuty让运维第一时间知道“数字员工”生病了。7. 我的个人体会Agent 不是替代人而是把人从“操作员”解放成“指挥官”过去三年我亲手交付了 17 个 LangChain Agent 项目从电商客服工单分类到律所合同条款比对再到工厂设备日志异常检测。最大的认知转变是成功的 Agent 项目80% 的精力不在写代码而在定义“什么算成功”。比如会议纪要项目客户最初说“要准确”但“准确”是什么是 100% 提取所有人名还是 95% 的决策事项归属正确我们花了两天和客户一起标注 50 份样本定义出可量化的验收标准决策事项提取 F1-score ≥ 0.92待确认问题召回率 ≥ 0.85。有了这个标尺后续所有 prompt 调优、Tool 重构