AI Agent 的Human-in-the-Loop工程实践：何时停下来问人，如何设计ApprovalFlow

张

张建站

2026/6/12 3:52:59

10分钟阅读

AI Agent 的Human-in-the-Loop工程实践：何时停下来问人，如何设计ApprovalFlow

三个月前我和另一位 Tech Lead 在某次线下聚会上聊起各自团队推进 AI Coding 的情况。他们已经全员上线 Cursor 超过两个月每周 AI 辅助的代码接受率Acceptance Rate稳定在 35% 左右看起来很漂亮。“那 PR 质量呢” 我问。他沉默了几秒“CR 打回率好像高了……但我们觉得是因为开发速度快了提交频率高了总量稀释了。”这个回答让我想起我们团队三个月前走过的同一段弯路——只看 AI 生成量忽略了下游所有指标。等我们开始补全仪表盘才发现速度数据背后藏着多少噪音。一个指标的崩塌LOC 陷阱AI Coding 最容易被量化的指标是代码行数Lines of Code。工具内置的接受量统计天然会让你看到这个数字在增长。但 LOC 作为生产力指标有一个根本性的问题它衡量的是输出体积不是交付价值。这个问题在 AI Coding 场景下被放大了。AI 生成的代码有几个典型特征防御性膨胀AI 倾向于生成完整的错误处理分支即便许多分支在业务场景下永远不会触发注释增量AI 生成的代码往往带有大量注释LOC 统计把注释也算进去冗余覆盖AI 不善于利用项目内已有的工具函数更倾向重新实现我们团队在 2026 年 3 月到 4 月的两个月内代码提交量上涨了约 60%。但当我们剔除测试文件的 LOC 增量再剔除 AI 生成代码中被 reviewer 要求删除的冗余部分净有效代码的增量只有 20% 左右。这还不是最糟的。真正的问题出现在两个月后的维护窗口那段时间进来的 AI 代码修改密度churn rate明显高于同期人工代码。为什么要建仪表盘而不是几个单独指标单独看任何一个指标都可以被玩弄或误读接受率高 → 可能只是 reviewer 过于宽松或 AI 生成的是低风险样板代码CR 通过率高 → 可能是 reviewer 压力大走过场部署频率高 → 可能是把一个 PR 拆成多个小 PR指标之间的关系才是信号。仪表盘的价值在于让你看到多个维度的横截面当速度指标在上升、而质量和返工指标同步恶化时你才能说这是债务转移不是提效。下面我给出五个维度的指标体系这是我们团队经过约四个月实践后沉淀下来的版本。AI Coding 质量仪表盘五维指标体系维度一速度指标速度指标是最容易采集也最容易误读的一类。你需要的不是AI 帮我写了多少行而是有效交付速度。指标定义采集方式误读风险Cycle Time需求→上线从需求进入开发到部署生产的时间线性Jira issue created → production deploy timestamp不能只看均值要看 P90。AI 加速了简单任务但复杂任务如果拖长均值会掩盖真实情况PR Lead TimePR 首次提交→合并入主干的时长GitHub/GitLab APImerged_at - created_at缩短可能是 reviewer 标准降低不一定是代码质量上升AI Acceptance Rate接受率AI 生成的代码中被开发者采纳的比例Cursor/Copilot 原生统计面板接受率高 ≠ 代码好。开发者在赶 deadline 时倾向于全部接受接受率反映压力状态不只是 AI 质量Commit Frequency单位时间内的有效提交数git log 分析去除 merge commit提交频率上升可以是好信号小步快跑也可以是坏信号频繁返工修补关键误读防范Cycle Time 缩短是你最想要的信号但它受需求大小影响极大。建议按任务复杂度分桶simple / medium / complex分别跟踪趋势而不是混在一起看。维度二质量指标质量指标回答一个问题AI 写出来的代码上线之后表现如何指标定义采集方式误读风险Defect Escape Rate上线后 7 天内发现的 bug 数 / 总上线功能数生产 incident trackingJira Bug / Sentry关联 deployment tagAI 密集期如果 Defect Escape Rate 上升是强烈的质量信号但这个数据滞后 7 天不适合实时决策Test Coverage DeltaAI 辅助代码的单测行覆盖率 vs 全量代码基线CI pipelinelcov/coverage.py按 blame 分段AI 往往会帮你生成测试文件让覆盖率数字好看但测试质量assertion 密度、边界覆盖不在 coverage 数里Build Failure Rate构建失败率CI/CD pipeline 中首次运行失败的 PR 比例GitHub Actions / GitLab CI job statusAI 生成的代码偶尔会引入不兼容依赖或错误的 import这个指标能提前捕捉Complexity Growth圈复杂度增量每次合并的平均圈复杂度增量lizard/radon集成到 CI输出 diff 对比AI 特别擅长生成扁平代码但有时会把多个 case 平铺成巨型 if-else圈复杂度会悄悄攀升一个真实数据点我们在 2026 年 4 月测量了 6 周的 AI 辅助 PR 和纯人工 PR 的 Defect Escape Rate。AI 辅助 PR 的 7 天 Defect Escape Rate 是纯人工 PR 的 1.6 倍。但当我们按任务类型拆分发现问题集中在业务逻辑重构类任务AI 在这类任务上对上下文理解不足。简单的 CRUD 和工具函数类任务AI 辅助 PR 的质量和人工相当。这不是AI 质量差而是在错误的任务类型上用了 AI。维度三Review 指标Code Review 是 AI Coding 影响最深的环节之一——不是因为 AI 让 Review 更难而是因为 Review 流程本身会随着提交量增加而崩溃。指标定义采集方式误读风险Review Turnaround TimePR 首次提交到首条 review comment 的时长GitHub/GitLab PR APIreviews[0].created_at - pr.created_atTurnaround Time 变长说明 reviewer 积压变短可能说明 reviewer 走过场而不是效率提升Comment Density评论密度每 100 行代码的有效 review comment 数非 nitPR comment 数 / (additions deletions) × 100过滤 LGTM/nitpickAI 时代 PR size 膨胀comment density 下降可能不是代码变好了而是 reviewer 审查面积跟不上CR Rejection Rate打回率被 Request Changes 的 PR 占比GitHub APIreview.state CHANGES_REQUESTED/ 总 PR 数打回率上升是质量恶化的强信号打回率下降需要结合 Defect Escape Rate 验证不能单独庆祝Reviewer Load评审人负载每人每周被 assign 的 PR 数GitHub/GitLab assignment 记录负载超过 8–10 个 PR/人/周时Review 质量开始显著下滑AI 扩张期要主动监控这个数字一个反直觉的发现AI Coding 规模化之后我们团队的 CR Rejection Rate 在第一个月确实下降了——不是因为代码变好了而是因为 reviewer 来不及深审开始走形式。我们是在两个月后看到 Defect Escape Rate 上升才回过头来排查的。建议把 Reviewer Load 设置为告警指标。超过阈值时自动提醒 Engineering Manager防止 Review 沦为橡皮图章。维度四返工指标返工Rework是衡量 AI Coding 债务转移最直接的指标。如果代码写出来之后频繁被修改无论初始速度多快总体成本都是虚高的。指标定义采集方式误读风险Code Churn Rate代码扰动率新写的代码在 N 天内被再次修改的比例git blame git log 组合统计行级 author→rewrite 链条工具git-churn脚本或code-churnGitHub ActionChurn 高不一定是坏事新功能迭代期正常问题是 AI 代码的 churn 系统性高于人工代码才说明质量问题Hotfix Frequency上线后 72 小时内的紧急 fix 提交数 / 月Git taghotfix/*统计或 incident severity P0/P1 且 commit 在 deploy 后 72h 内频率上升是最直接的质量危机信号AI 密集期要提高基线阈值期望但不能无限上调PR Reopen Rate合并后又被重新打开关联新 issue的 PR 比例GitHub/GitLab PR link 分析closed_as_reopenedevent这个指标在大多数团队被忽视但它是Review 时漏掉的问题上线后被发现的代理指标AI Assist Rework RatioAI 辅助写的代码被返工的比例 vs 人工代码需要在 commit message 或 PR label 中标记 AI 辅助再与 churn 数据交叉这个指标需要规范的标注才能采集是成本最高的指标但也是最有说服力的采集 AI Assist Rework Ratio 的实际方案在 CI pipeline 中加一个 pre-commit hook当检测到cursor/或.copilot相关的 context 文件时自动给 PR 打 labelai-assisted。这样不需要依赖开发者人工标记数据相对可靠。维度五技术债指标技术债是 AI Coding 最难量化、但最需要主动管理的维度。AI 生成的代码往往在局部是正确的但在系统层面会引入结构性偏差。指标定义采集方式误读风险Dependency Freshness依赖新鲜度项目依赖中过期超过 12 个月的包比例npm outdated/pip list --outdated/dependabot报告CI 中定期运行AI 生成代码时会引入它训练数据截止时间附近的包版本可能带入已有已知漏洞的版本Dead Code Ratio僵尸代码率从未被调用过的函数/类/模块比例ts-prune(TypeScript) /vulture(Python) /deadcode(Go)每月扫描一次AI 生成的代码有时包含备用路径或兜底函数长期不被调用但占用维护成本Architectural Coupling Score模块间不合理依赖的数量循环依赖、跨层依赖dependency-cruiser(JS/TS) /ArchUnit(Java)集成到 CI 作为 soft gateAI 对项目架构分层理解有限容易在不该引用的层之间直接 import久了会破坏架构边界TODO/FIXME Density代码库中 TODO/FIXME/HACK 注释数 / 总代码行数grep -r TODO|FIXME|HACK --include*.{ts,py,go,java}AI 有时会生成// TODO: handle edge case这类注释但不实现这些是隐性债务的标记一个容易忽视的技术债模式AI 在生成代码时会创造大量内联工具函数——本该抽象成共用工具的逻辑被以略微不同的形式重复实现了五六次。这不会触发任何 lint 规则也不会让测试失败但随着时间推移维护这些冗余实现的成本是真实的。建议每季度跑一次 AST-level 相似度分析jscpd/cpd把 AI 带进来的重复代码主动消灭。如何使用这张仪表盘最小起步配置第一周可以落地如果你从零开始建议先跑通这三个指标Cycle TimeP50 P90— 代表速度最直观CR Rejection Rate— 代表质量采集成本低Hotfix Frequency— 代表返工结果最直接这三个指标不需要任何特殊工具GitHub/GitLab API 一个简单的 Python 脚本就能每周生成报告。30 天后加入的指标待基线建立之后再加入Code Churn Rate需要 git-blame 分析Test Coverage Delta需要 CI 集成Reviewer Load需要 webhook 统计90 天后才值得看的指标这些指标需要历史数据积累才有意义Defect Escape Rate Trend需要 7–14 天滞后数据Architectural Coupling Score需要 baseline 快照对比AI Assist Rework Ratio需要 PR 标注积累一个实用的周会模板每周 Engineering Review 建议固定讨论这张卡片15 分钟AI Coding Weekly Health Check — [日期] 速度 Cycle Time P50: __h (vs 上周: __h) Cycle Time P90: __h (vs 上周: __h) 质量 Defect Escape Rate: __% (vs 基线: __%) Build Failure Rate: __% (vs 上周: __%) Review Reviewer Load 峰值: __ PR/人 (阈值: 10) CR Rejection Rate: __% (vs 上周: __%) 返工 Hotfix 次数: __ (vs 上月均值: __) Churn Rate P75: __% (vs 基线: __%) 技术债 TODO/FIXME Delta: __/-__ (vs 上周) 本周新增依赖: __ 个过期依赖: __ 个本周关注点: _______________ 下周行动项: _______________这个模板不追求完整追求的是让数字说话的节奏。每周填一次四周后你就能看到趋势八周后你就能预判风险。两种错误的应对方式看到这些指标恶化时有两种常见但都错误的应对错误一禁止 AI 辅助高风险任务。这是过度反应。AI 在哪类任务上质量稳定应该由数据来回答。重构类任务的 Defect Rate 高不代表 AI 不能用于重构可能只是 prompt 工程不够或者缺少足够的测试保护网。错误二忽视数据坚信时间长了工具会越来越好。这是另一种逃避。AI 工具确实在进步但你的团队今天已经积累了债务不会因为工具进步而自动消失。正确的应对是用仪表盘定位是哪个维度的问题再针对那个维度采取干预措施。比如 Reviewer Load 超标 → 考虑引入 AI-assisted review 工具如 CodeRabbit分担初筛工作比如 Churn Rate 偏高 → 考虑在 AI 辅助的 PR 上强制要求额外的 reviewer比如 Dead Code 快速增长 → 考虑在 CI 中加入 dead code 检测的 soft gate。给 Tech Lead 的最后一条建议别把这套仪表盘变成 KPI 考核工具。这是诊断工具不是绩效工具。如果开发者知道AI 辅助代码的 Churn Rate 会被记录他们会开始避免使用 AI而不是提升 AI 使用质量。指标应该帮助你发现系统性问题帮助团队改进流程而不是让个体背锅。用它来问我们的 AI Coding 流程在哪个环节出了问题而不是谁的 AI 代码质量最差。这两个问题看起来相似但前者会让你的团队越来越好后者会让你的团队停止使用 AI。本文指标数据来自作者所在团队 2026 年 3–5 月的内部工程实践具体数字已做脱敏处理。采集脚本和看板模板可通过评论区联系获取。

收藏！10个GitHub仓库助你从AI小白进阶生产环境（小白程序员必备）

本文指出AI工程师竞争已从学历转向工具链掌握，推荐10个GitHub仓库帮助读者从AI新手进阶至生产环境。涵盖LangChain、LangGraph、Ollama等核心工具，强调实战项目与本地模型部署的重要性，建议收藏学习以提升工程化能力。很多人还在纠结&#x…...

2026/6/12 3:48:51 阅读更多 →

揭秘DeepBump：从单张图片生成专业级法线贴图的完全指南

揭秘DeepBump：从单张图片生成专业级法线贴图的完全指南【免费下载链接】DeepBump Normal & height maps generation from single pictures 项目地址: https://gitcode.com/gh_mirrors/de/DeepBump 你是否曾为3D模型缺乏真实表面细节而烦恼？是…...

2026/6/12 3:43:29 阅读更多 →

Sketch MeaXure：智能设计标注插件让设计到开发效率提升73%

Sketch MeaXure：智能设计标注插件让设计到开发效率提升73% 【免费下载链接】sketch-meaxure 项目地址: https://gitcode.com/gh_mirrors/sk/sketch-meaxure 在UI/UX设计流程中，设计标注环节往往是设计师最耗时的工作之一。Sketch MeaXure作为一款…...

2026/6/12 3:43:11 阅读更多 →