AI回答得好不好，到底谁说了算？——当AI开始影响真实世界，我们怎么信任它？

张

张建站

2026/6/30 10:37:41

10分钟阅读

《AI不是魔法》写给软件工程师的AI工程课第九堂AI回答得好不好到底谁说了算这一篇适合谁如果你担心AI会犯错、想知道怎么判断AI靠不靠谱、以及如何让AI系统真正可信任——那么这一篇值得看完。上一堂课我们知道AI越来越像操作系统不是因为设计如此而是因为复杂到一定程度它必须如此。这一堂课我们继续回答当Prediction越来越容易影响世界谁证明它是对的一个团队用Agent自动修复CI失败。运行了一段时间一切顺利。Agent每天读日志、改配置、提交MR、重新部署、通知Slack。直到有一天老板问了一句话“上周Agent修了几个CI”团队回答“修了15个。”老板又问“真的都修好了吗”团队沉默了。因为没有人验证过。Agent每次都说“已修复”但到底部署成功了吗测试通过了吗业务恢复了吗没人知道。Agent负责行动。但谁来证明行动是否成功这就是Evaluation出现的原因。当AI只是聊天我们评估的是回答当AI开始工作我们评估的是整个系统。一、Prediction越来越容易发生也越来越需要被验证前八篇我们一直在讲一件事Prediction越来越容易发生了。第一篇Prediction是什么第二篇Prompt让Prediction理解用户第三篇Transformer让Prediction更高效第四篇RAG让Prediction获得知识第五篇Function Calling让Prediction影响世界第六篇MCP让Prediction连接工具第七篇Agent让Prediction持续发生第八篇Memory、Workflow、Permission让Prediction被管理Prediction从“一次结束”变成了“不断循环”从“只动嘴”变成了“能动手”。但问题也随之而来Prediction越来越容易影响世界影响越来越大谁证明它是对的以前AI回答错了最多是聊天记录里多一句废话。现在Agent一个错误的Prediction可能触发退款、修改配置、删除数据、部署错误代码。Prediction的代价越来越高于是Prediction必须被验证。不是有人发明了Evaluation而是Prediction越来越重要必须有人证明它是不是好的。二、Evaluation不是AI发明的传统软件一直都有很多工程师会觉得Evaluation是AI领域的新东西。其实不是。传统软件开发一直有验证环节写代码 → 单元测试 → 集成测试 → 上线每一个环节都在回答同一个问题这段代码是对的吗AI系统也是一样Prediction → Evaluation → 上线唯一的区别是传统软件验证的是代码AI系统验证的是Prediction。Evaluation不是AI发明的。它只是从验证代码变成了验证Prediction。用一张图来表示传统软件代码 → 测试验证代码是否正确 → 上线 AI系统 Prediction → Evaluation验证Prediction是否正确 → 上线所有工程师都理解测试的必要性。没有人会上线未经测试的代码。那么为什么要上线未经评估的AI到这里Evaluation的角色已经清晰了。它不是一个独立的事后打分环节而是嵌入了AI的循环之中以前 Prediction → Action → 结束现在 Prediction → Action → Evaluation → 下一次PredictionAgent让Prediction可以不断发生而Evaluation决定下一次Prediction是否值得继续。三、Prediction越来越复杂Evaluation也越来越复杂早期AI系统只有一个Prediction用户问一句AI答一句。评估也很简单看回答对不对。但到了Agent时代一个任务涉及多次PredictionAgent收到任务 ↓ Prediction 1该查什么资料 ↓ Action 1调用RAG ↓ Result 1返回文档 ↓ Evaluation 1文档是否相关 ↓ Prediction 2该调什么工具 ↓ Action 2调用API ↓ Result 2返回数据 ↓ Evaluation 2数据是否正常 ↓ Prediction 3下一步该做什么 ↓ ……哪一步算成功只看最终答案够吗不够。因为最终答案对了但中间可能走了弯路、调错了工具、浪费了资源。最终答案错了但中间某几步是对的需要知道在哪一步出的问题。所以Evaluation的对象从“一句回答”变成了“整个Workflow”。以前评估结果回答对不对现在评估过程每一步决策是否合理、工具调用是否正确、Context是否被正确更新这不是有人发明了“系统评估”而是Prediction越来越复杂评估必须跟着变复杂。Evaluation不是终点。Evaluation的结果同样会进入Context影响下一次Prediction。Prediction负责前进Evaluation负责反馈。没有反馈Prediction永远不会变得更可靠。四、一个真实的工程案例一个团队用Agent自动修复CI失败。Agent的流程是这样的Agent收到CI失败通知 ↓ 读取CI日志 ↓ 定位问题发现是yaml配置错误 ↓ 修改yaml ↓ 创建Merge Request ↓ 人工Review ↓ 合并后重新部署 ↓ 通知Slack“已修复”一开始团队只评估最终结果Agent说“已修复”就算完成。但很快出了问题有一次Agent说“已修复”实际上部署后测试没有通过。Agent没有验证部署结果就擅自通知了“已修复”。团队随后改了流程在“通知Slack”之前增加了一个Evaluation步骤…… 合并后重新部署 ↓ 自动运行测试用例 ↓ 测试全部通过 ├── 是 → 通知Slack“已修复测试通过” └── 否 → 通知人工介入“修复未通过测试请检查”注意最后决定“通知Slack”的不是Agent而是Evaluation。Prediction决定下一步做什么Evaluation决定下一步还能不能继续。一个一分钟思维实验回想一下你日常的开发流程。你写完代码不会直接上线。你会先跑单元测试再跑集成测试再Code Review最后才部署。现在想象一下如果AI系统也能这样——每次Prediction之后先验证Result再决定下一步——它是不是和你写代码的流程一模一样Evaluation就是AI系统的质量门Quality Gate。工程师容易踩的坑错误做法只在上线前做一次评估上线后就再也不看了。为什么错 AI系统的行为会随着输入的变化而变化。今天准确的Prediction明天可能就不准了。评估必须是持续的。 ✅ 正确做法把评估嵌入到AI系统的Loop中——每次Prediction之后都验证Result每次验证都记录每次记录都用于改进。今天记住这一句话Prediction决定AI能做什么。Evaluation决定我们能不能相信它。如果今天只带走一个观点那就是Prediction让AI开始工作。Trust让AI真正上线。系列世界观升级走到第九篇整本书的世界观完成了一次重要升级。以前Prediction → Action → Context更新 → Prediction现在Prediction → Action → Result → Evaluation → Context Update → PredictionEvaluation插进了Loop。它不再是独立于系统之外的事后打分而是系统运行中的一个环节。Evaluation的结果同样进入Context影响下一次Prediction。回头看这九篇你会发现一个规律第一篇Prediction 第二篇Prompt → Prediction理解用户第三篇Transformer → Prediction更高效第四篇RAG → Prediction获得知识第五篇Function Calling → Prediction影响世界第六篇MCP → Prediction连接工具第七篇Agent → Prediction持续发生第八篇Memory / Workflow / Permission → Prediction被管理第九篇Evaluation → Prediction被验证Prediction产生能力。Evaluation产生信任。能力决定上限信任决定下限。没有信任再强的能力也无法落地。下一篇预告当AI系统开始影响真实世界我们需要的不仅是可信的Prediction更需要一个能让Prediction稳定生存的生产环境。Demo里Prediction活在理想世界。生产环境里Prediction要面对API变更、网络抖动、权限变化、模型升级、数据漂移。一个真正能上线的AI系统需要的从来不只是Prediction。下一篇我们聊如何为Prediction构建一个真正能上线的生存环境

Splunk实战入门：从零搭建到核心概念解析

1. Splunk初探：数据世界的瑞士军刀第一次听说Splunk时，我以为它只是个普通的日志分析工具。直到亲眼看到它用3秒从200GB杂乱无章的服务器日志中定位到那个导致系统崩溃的异常请求，我才意识到这把"瑞士军刀"的真正威力。想象一下&…...

2026/6/30 10:37:35 阅读更多 →

【雷达目标检测实战】从恒定阈值到CA-CFAR：MATLAB仿真与性能对比全解析

1. 雷达目标检测基础概念雷达目标检测的核心任务是从复杂的回波信号中准确识别出真实目标。想象一下，你站在一个嘈杂的房间里，试图听清远处有人喊你的名字——雷达检测面临的就是类似的挑战，只不过把声音换成了电磁波信号。在实际雷达系统…...

2026/6/30 10:35:32 阅读更多 →

STM32F103C8T6 HAL库驱动DHT11：从CubeMX配置到OLED显示的实战解析

1. 项目背景与硬件准备 STM32F103C8T6作为经典的Cortex-M3内核微控制器，凭借其丰富的外设资源和亲民的价格，一直是嵌入式开发者的心头好。这次我们要用它来驱动DHT11温湿度传感器，并通过OLED实时显示数据。这个项目特别适合刚接触HAL库的开发…...

2026/6/30 10:33:39 阅读更多 →

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解棋牌室、茶楼老板选收银机，常见问题不是“能不能收钱”，而是开台计时别算错、会员储值别记混、团购核销别卡住、茶水小食别漏单，营业结束后还能把账看清楚。…...

2026/6/29 3:44:23 阅读更多 →

Claude 桌面版深度使用技巧指南

一、文件分析的高阶技巧1. 截图与设计稿的精确提问法不要只丢一张图说“帮我看看”。带指令地上传效果倍增：像素级评审：“以 iOS 设计规范为标准，检查这张截图的间距、字号和颜色一致性，标出具体坐标。”信息提取：“把…...

2026/6/30 10:39:10 阅读更多 →

【Claude】Request timed out 请求超时报错已解决

【Claude】Request timed out 请求超时报错已解决关键词：Claude Code、Request timed out、API_TIMEOUT_MS、请求超时、网络代理、自动重试、Waiting for API response一、问题现象：一行干巴巴的超时 Claude Code 干着干着，终端冒出极简的一行…...

2026/6/29 23:16:32 阅读更多 →