我做了个Skill,专门用来自动生成测试用例:一个测试Agent的诞生
目录一、现象测试设计正在成为瓶颈二、本质变化从“人工设计”到“智能体生成”三、核心机制拆解一个测试用例生成Skill的五个关键设计四、典型案例对比人工 vs Skill差距在哪五、工程落地启示你的团队也能复制六、趋势判断测试工程师的角色会怎么变一、现象测试设计正在成为瓶颈先说说那个让我崩溃的下午。说实话这个工具是被逼出来的。那天手里压着两个版本的需求截止时间是下午五点。一份文字需求一份原型图加起来七八十页从头写测试用例。我当时的感受是这玩意儿凭什么要人手工做做过测试的应该都懂那种感觉——业务逻辑要反复看边界值要一个个算场景流要慢慢梳理然后还得在XMind里一个节点一个节点地敲进去。一份中等复杂的需求快的一两小时慢的大半天就没了。更烦的不是耗时是那些“重复的愚蠢”上周刚问过产品某个模糊需求怎么理解这周换了个文档同样的问题又得问一遍。优先级怎么定每次都靠感觉P0和P1混在一起分布飘忽不定。某些场景几乎每次都忘——弱网重试、空列表状态、文件上传边界值——不是不知道就是在赶时间的时候会漏。很多人已经开始感觉到测试设计的瓶颈不在执行不在工具在设计本身。而设计这件事目前大部分还是靠人工堆时间。我当时就想AI整天说能替代人了怎么就没人做一个真的能接手这件事的工具不是那种给你列几个测试点的半成品而是真正端到端——进来需求出来一份可以直接导入XMind的完整用例文件。于是自己动手做了。二、本质变化从“人工设计”到“智能体生成”传统的测试用例生成本质上是一个翻译加枚举的过程人读需求人脑调用测试设计方法人手工录入。瓶颈在于人脑的工作记忆有限而且容易疲劳、遗漏。现在AI Agent介入之后变化的核心不是“生成速度快了”而是设计过程被结构化、可重复、可自检。这个Skill做的事情不是把需求丢给GPT让它随便写几句而是把一个有经验的测试工程师的思维过程——方法选择、边界计算、场景梳理、风险推测——编码成了一个可执行的智能体工作流。本质是把测试设计这个“隐性知识”变成了“显性流程”。维度传统人工该Skill方法调用靠经验不固定四种方法有序叠加覆盖率判断凭感觉量化指标自动检查遗漏场景下次可能还漏记忆机制越用越全输出格式手动整理直接生成XMind文件这个变化带来的直接结果测试设计从“手艺活”变成了“配置活”。三、核心机制拆解一个测试用例生成Skill的五个关键设计这个Skill不是简单的“需求→LLM→用例”。它内部有五个核心模块按顺序执行。1四种测试设计方法有序叠加很多AI工具给出的测试用例就是把需求复述一遍加个“验证一下是否正确”。这不叫测试设计这叫翻译。这个Skill内置了测试领域真正在用的四种方法按顺序叠加执行等价类划分把所有输入划分成有效区间和无效区间不遗漏不重叠。边界值分析上限、下限、临界点一个个算出来而不是靠感觉“试试边界”。场景法完整梳理基本流、备选流、异常流业务主线和每一条分支都要覆盖到。错误推测高风险模块补充特殊字符、极端值、并发场景把最容易出BUG的地方重点照顾。四种方法不是随机调用而是有顺序地叠加最终生成的用例集是一个有结构、有层次的整体。观点句测试设计不是翻译需求而是构造有效验证。2多模态从图片里读场景很多时候需求根本没有文字来的就是一张Figma截图、一张原型图、或者一张画满箭头的业务流程图。以前遇到这种情况我得自己先把图“翻译”成文字再去写用例相当于多做了一遍工。现在把图片直接丢进去就行了。工具会用多模态能力读取图片内容UI设计稿 → 识别页面元素、输入框、按钮、状态文案 → 生成表单验证和交互用例流程图 → 识别分支条件、步骤顺序、异常路径 → 生成完整的场景流用例规则表格截图 → 识别枚举值和条件组合 → 生成等价类和边界值用例图片和文字可以同时放进去工具会交叉对照补全单独依赖任何一方都可能漏掉的场景。3质量预审不合格不放行AI生成测试用例最让人不放心的地方不是慢而是你不知道它漏了什么。生出来一堆用例覆盖率其实只有60%优先级全堆在P2P0寥寥无几——这种结果比没有还烦人因为你还得去检查。工具在正式生成之前会跑一轮质量预审逐项核查需求覆盖率是否达到95%以上P0占比是否在合理区间10–15%P1占比是否达标30–40%每条需求是否至少关联了一种测试设计方法有没有凭空编造需求文档里不存在的场景有没有语义重复的用例六项全过才进入生成阶段。任何一项不达标先自动修正改完再输出。整个过程你只需要在两个检查点确认一下其余全自动。观点句AI生成用例最大的问题不是慢而是你不知道它漏了什么。4记忆机制越用越懂你这部分是我花时间最多的地方也是让它从“能用”变成“好用”的关键。第一次用完之后Skill会在项目里创建一个.memory/文件夹把这些东西记下来你做过的歧义判断某个模糊需求你怎么理解的下次遇到类似描述直接复用你的标签选择这个项目是PC端还是APP端记住了下次不用重选你的步骤粒度偏好你觉得步骤太细让它合并了它记住后续风格保持一致历史漏掉的场景哪类场景之前经常遗漏这次自动补进去用了几次之后生成质量会明显比第一次好。不是因为模型升级了而是因为它记住了你的项目和你的习惯。5输出直接可用XMind免二次整理生成的文件是.xmind格式结构严格按照XMind导入规范组织项目名作为根节点下面按功能模块分层每条用例包含前置条件、操作步骤、预期结果、优先级标签同一模块下的用例按功能区域归类不会出现“每个功能点单独建一个目录”导致目录爆炸的问题打开XMind全选导入一份结构清晰的测试用例树就在眼前了。四、典型案例对比人工 vs Skill差距在哪拿一个真实的支付模块需求来对比。需求描述用户选择银行卡支付输入卡号、有效期、CVV点击确认支付成功则跳转到成功页失败则显示错误提示。人工输出资深测试工程师用时45分钟等价类卡号正确/错误/空有效期格式正确/错误/过期CVV正确/错误/空边界值卡号最小最大长度有效期月份1/12/13CVV 3/4位场景流正常支付成功支付失败网络超时后重试错误推测连续输错CVV锁定余额不足回调优先级分布P0约12%P1约35%总用例数23条Skill输出自动用时3分钟完全覆盖以上所有用例额外补充有效期“当月最后一天”边界CVV输入字母自动拦截支付成功页面的返回按钮行为优先级分布P0 13%P1 38%自动校准总用例数28条多出来的5条是人工容易忽略的UI交互和边界组合差距不在“能不能想到”而在“每次都能稳定想到”。人工会疲劳Skill不会。而且Skill把优先级分布控制在一个稳定的区间不会出现这次P0占30%下次只有5%的情况。五、工程落地启示你的团队也能复制这个Skill不是只能我自己用。它的设计思路完全可以被其他团队复制。启示一测试设计流程可以“代码化”把等价类、边界值、场景法、错误推测这些方法写成确定的执行顺序和判断规则再交给LLM去填充内容。核心是“流程控制LLM填充”而不是让LLM自由发挥。启示二质量预审机制比生成算法更重要没有预审的生成是不可信的。六项检查指标可以根据你团队的标准调整但必须存在。这是从“玩具”到“工具”的分水岭。启示三记忆是长期价值的来源通用LLM不懂你的项目。记忆机制.memory/目录解决了这个问题。建议团队把公共的歧义判断、领域规则沉淀到一个共享记忆库新人上手直接复用。启示四多模态不是炫技是刚需现实工作中大量需求以图片形式存在。如果不支持图片输入这个工具的使用场景会缩水一半以上。落地建议选一个模块跑通从需求到XMind的全流程观察生成的用例质量和覆盖率。不要一开始就追求完美先用质量预审把“不可信”的用例挡在外面再逐步调优。有人说AI会取代测试工程师。我不这么看。会被取代的是“手工翻译需求为用例”这个动作而不是测试设计这个岗位。未来测试工程师的价值会从“写用例”转向“设计智能体”——定义什么场景用什么方法、什么指标算合格、什么遗漏需要补充记忆。换句话说你不是被AI替代而是被会用AI的同行替代。这个Skill让我看到的一个明确趋势是测试设计会变成一种“可配置的流程”而不是一种“靠经验积累的手艺”。经验仍然重要但经验会被编码成规则和记忆沉淀在工具里而不是只留在一个人的脑子里。观点句测试设计的未来不是取消人工而是把人工从重复劳动中解放出来去做更高价值的策略设计。最后留一个问题给你当你的测试用例生成效率提升10倍你省下来的时间会用来做什么