什么是Prompt在大语言模型Large Language Model, LLM的应用中我们和模型对话的时候给到模型的内容不叫question也不叫request而是叫Prompt。提示词Prompt就是用户输入给大语言模型的一段文本用于引导模型生成期望的输出。它可以是一个问题、一段指令、一个上下文描述。它是我们与模型对话的“语言”也是模型理解我们需求的“钥匙”。你可以把 Prompt 理解为——告诉模型“该做什么、怎么做、做成什么样”的指令。但与普通指令不同Prompt 并不是写代码式的命令而是一种自然语言描述。比如“你要做什么““你以什么角色做”“你以什么格式输出”等信息。通过这样设计Prompt 能有效唤起模型的基础能力如理解复杂文本、总结信息、生成内容、逻辑推理等等。为什么 Prompt 很重要Prompt 就像是“模型的遥控器”。同一个模型换一种提问方式结果可能天差地别。举个例子Prompt 1帮我写一份300字的患者健康报告。Prompt 2# 角色 你是一名专业的医疗数据分析师。 # 任务 请根据以下患者的体检数据血压、血糖、心率等和病史分析健康状况、潜在风险并提出生活或治疗建议。最后以专业报告格式输出。 # 患者信息 姓名张三 性别男 年龄70岁 血压110-150 身高170cm 体重100kg 症状长期失眠头痛心慌 病史长期吸烟酗酒史有高血压 # 输出要求 1. 以“患者姓名健康报告”为标题 2. 章节段落分明 3. 总输出控制在1000字以内。将以上两个Prompt分别放入deepseek模型进行提问得到如下两个结果Prompt 1 输出**患者健康报告** **报告日期** 2023年10月27日 **患者姓名** 李先生 **性别** 男 **年龄** 52岁 **病历号** BR202310001 **一、 基本信息** 本次报告基于患者于2023年10月20日的年度体检结果及问诊信息生成。 **二、 主观评估** 患者主诉近期偶有头晕、乏力夜间睡眠质量一般多梦易醒。自述工作压力较大饮食尚可但口味偏咸运动量不足。 **三、 客观检查与评估** 1. **体格检查** 身高175cm体重80kg体重指数BMI26.1属于超重范围。血压测量为148/92mmHg达到1级高血压诊断标准。 2. **实验室检查** * 血脂低密度脂蛋白胆固醇LDL-C3.5 mmol/L略高于正常值。 * 空腹血糖5.8 mmol/L处于正常值上限。 * 肝功能、肾功能等其余指标均在正常范围内。 **四、 健康风险评估** 综合评估患者当前主要健康风险为**高血压、超重、血脂异常及糖尿病前期风险**。这些因素共同构成了心脑血管疾病的高危风险。 **五、 健康指导与建议** 1. **生活方式干预** 立即开始低盐、低脂饮食控制每日总热量摄入建议每周至少进行150分钟中等强度有氧运动如快走、游泳。 2. **医学干预** 建议心血管内科就诊在医生指导下启动降压药物治疗并定期监测血压。 3. **定期复查** 建议3个月后复查血压、血脂及空腹血糖根据结果调整治疗方案。 **医生签名** [医生姓名] **机构名称** [医疗机构名称]Prompt 2 输出# 张三健康报告 ## 一、健康状况分析 患者血压150/110mmHg2级高血压BMI 39.1重度肥胖伴随头痛、心慌、失眠症状。结合60岁年龄及长期吸烟酗酒史心血管疾病风险极高。 ## 二、主要风险 1. 高血压危象风险 2. 冠心病/脑卒中发展风险 3. 糖尿病潜在风险需空腹血糖确认 4. 睡眠呼吸暂停综合征与肥胖高度相关 ## 三、建议措施 1. **立即就医**心内科调整降压方案监测动态血压 2. **严格戒断**立即停止吸烟饮酒 3. **体重管理**目标减重10%近期目标减重5kg 4. **生活方式**低盐饮食5g/天、每日30分钟步行、监测睡眠呼吸 ## 四、紧急预警 若出现胸痛、剧烈头痛或视物模糊需即刻急诊。同样是“写报告”Prompt 1 可能在某些能力比较强的大模型中会返回提醒让你补充患者信息而在一些能力比较差的模型中可能就会直接胡乱输出一些虚构的内容一本正经的胡说八道而 Prompt 2 的输出显然更符合用户的具体要求分析也更加专业、更具体。这说明Prompt 的设计质量直接决定了模型输出的质量。你的Prompt设计的越详细、越具体模型输出的回答就会越准确、越有用。如何设计Prompt提示词设计原则与技巧明确角色设定为模型指定明确的角色有助于其理解任务的上下文和预期输出。例如# 角色设定 你是一名网络安全专家请根据以下安全告警日志并输出专业分析报告这种方式可以引导模型以特定的语气、风格和专业性进行回应。清晰具体的任务指令在设计 Prompt 时要避免模糊、笼统以及繁琐的指令而是明确告诉模型 需要做什么、如何做以及 期望输出的形式。清晰明了的任务指令可以帮助模型准确理解你的意图减少生成不相关或错误内容的可能性。并且一定要注意不要对大模型太礼貌可以经常用一些命令的词汇来写提示词比如“必须”“肯定”“绝对”直截了当的对大模型下达指令。举个例子## 模糊指令效果不佳 “写一篇文章。” ## 清晰具体的指令效果更好 “撰写一篇800字左右的文章主题是人工智能在医疗领域的应用要求条理必须清晰、语言通俗。用于发表在公众号上”通过这种方式模型能明确任务目标、内容范围和输出要求从而生成更贴合预期的结果。结构化提示词构化提示词是一种通过明确划分提示内容结构、强化语义层次来提升模型理解与输出质量的提示设计方法。它通常通过清晰地定义 角色Role、任务Task、上下文背景Context、输出格式Format 等关键信息并辅以显式的分隔符如编号、引号、换行、Markdown标题等将复杂指令拆解为模型可识别的模块化输入。这种方式能显著提高模型对任务目标的理解精度使输出更加可控、稳定且符合预期结构尤其适用于多步骤推理、专业内容生成和规范化输出等场景。# 角色 你是一名资深的市场文案撰写专家 # 任务 撰写一份产品描述 # 要求 1. 强调产品的独特卖点 2. 使用简洁明了的语言 3. 字数控制在150字以内 4. 风格偏向专业且富有吸引力 # 输出格式 - 标题一句话概括产品卖点 - 正文2-3句描述产品特性和优势 - 列表用项目符号列出最核心的3个特点在这个 Prompt 结构中每个部分都被明确分隔模型可以更好地理解任务的角色定位、任务目标、要求细节和输出格式提高生成内容的准确性和可读性。指定输出格式明确告诉模型 “你希望的结果长什么样”能显著提升输出的结构化和一致性。大模型虽然具备强大的生成能力但如果不限定格式它往往会“自由发挥”导致输出不符合需求。某些调用参数生成的场景用户可能需要大模型生成JSON格式用于后续API的使用某些分析报告生成的场景用户就可能需要的是Markdown格式。所以根据场景的不同通过定义输出格式Prompt可以有效统一输出格式。例如# 任务描述 你是一个接口参数生成专家需要根据自然语言描述生成一个调用API接口的参数配置。 # 输出格式 请将输出结果以JSON格式给出字段包括 - pageSize每页大小最大不超过10 - pageNum:当前页默认1 - type类型0 查询商品、1 查询订单 # 用户输入 我想分页查询订单列表。预期模型输出{pageSize:10,pageNum:1,type:1}通过规定输出格式JSON、字段定义、类型限制等模型生成出的结果可直接用于后续处理或接口调用减少二次处理成本。随着模型的能力 越来越强输出的json的稳定性已经很好了但是在以前json的输出其实并不是特别的稳定即使我们要求模型按照json输出也是一样的。所以在很多实际线上的生产级的应用中还是需要考虑输出不稳定的情况比如引入一些json修复的框架来修复模型输出结果存在错误的情况。提供上下文信息在提示词中加入任务背景、相关知识、历史会话或上下文内容能帮助模型更好地理解输入语义生成更准确、更符合预期的结果。比如在模型上下文中增加会话历史让模型具备记忆能力。大模型拥有了用户当前会话的历史问答后面对用户的新问题可以实现关联分析的效果模型会在历史会话的基础上继续回答用户的新问题。系统提示词用户提示词提示词可以分为系统提示词和用户提示词。messages[ {role: system, content: You are a helpful assistant.}, {role: user, content: 你是谁}, ]**系统提示词System Prompt**由系统开发者或应用平台预先设定的一段指令性文本用于引导模型的整体行为、角色定位、输出风格、安全边界等。作用设定模型的角色例如“你是一个专业作家”指定任务要求例如“请给我写一篇文章用于发表在公众号上面”限制输出内容例如“不要出现一些让程序员看了之后会反感的内容。”控制格式例如用简洁的语言回答或以JSON格式输出提供上下文框架例如始终使用中文或假设用户位于中国。特点用户通常看不到或不能直接修改但是做大模型应用开发的时候代码里面是可以指定系统提示词的。在每次对话中隐式地作用于模型是模型“默认行为”的基础。户提示词User Prompt用户在与AI交互时主动输入的问题、指令或请求。作用明确用户当前的具体需求例如请围绕内容关于AI时代对于程序员的影响提供具体上下文如“根据以下文章总结要点……”特点由用户自由输入决定单次交互的具体内容方向提供示例Zero-Shot零样本提示Zero-Shot 是指 不给模型提供任何示例仅通过任务指令完成生成任务。这种方式完全依赖模型的预训练知识与理解能力简单直接适合通用任务或模型熟悉的领域。例如# 任务 判断用户的这句话属于什么意图查询API、检索知识库、联网查询。 # 用户输入 帮我解读一下这个安全漏洞。优点简洁、高效、无需额外示例适合简单直接的任务。缺点容易出现偏差或输出格式不统一特别是任务较复杂时。在简单场景下意图比较简单清晰模型本身能够很好的识别出用户问题属于哪种意图而在“复杂”场景下我规定了三种“工具调用”的意图如果没有相应的示例模型很难判断你这个问题属于哪种意图应该调用哪种工具来查询。Few-Shot少样本提示Few-Shot 是指 在提示中加入少量示例让模型通过这些示例学习思考模式和输出风格。示例一般是输入与输出的成对样本用来引导模型模仿思维逻辑和输出结构。例如示例位置对模型输出的影响在设计 Few-Shot 提示时我们往往关注示例选择多少、示例的输入输出格式、提示词的角色设定、任务指令等。但研究显示示例的位置即放在提示词的开头、角色前、任务后、用户输入前后等也会显著影响模型性能。有一篇论文 “Where to show Demos in Your Prompt: A Positional Bias of In‑Context Learning”指出即便示例内容完全不变仅仅改变其在 Prompt 中的位置模型的准确率、输出稳定性会有大幅波动。论文链接https://arxiv.org/pdf/2507.22887这个论文的研究提醒我们Prompt的设计不仅要“是什么”和“怎么写”还要考虑“放在哪里”。该论文研究定义了四种典型的示例放置位置sspStart of System Prompt示例放在系统提示的最前面。espEnd of System Prompt示例放在系统提示的末尾。sumStart of User Message示例放在用户消息的最前面很多系统默认位置。eumEnd of User Message示例放在用户消息的最后。主要规律将示例放在开头尤其 ssp通常会带来最稳定且最高的性能提升而将示例放在用户消息的末尾eum常导致性能下降、输出波动大。研究还发现一些小模型参数量小对这个现象极为敏感 更容易受位置影响。而大模型参数量大中这种效应则会减弱比如在llama3模型中sum 位置用户消息开头有时还会优于 ssp。这些示例体现了大模型对上下文中示例位置的敏感说明提示词位置设计也是提示工程的重要环节。经验之谈提示词设计如“炼丹”提示词设计可以类比为炼丹并不是你写得指令再完美、示例再精确就一定能“生效”或产生预期结果。炼丹是通过各种原料的混合、炼制试图得到某种具有特定功效的丹药但具体的配比和炼制过程缺乏精确的科学依据更多是靠经验。提示词设计也类似用户需要尝试不同的提示词组合、结构和参数来使大模型生成理想的结果。但由于大模型的复杂性和不确定性很难准确预测哪种提示词设置会完全符合预期需要经过多次尝试才能找到一个相对较好的方案。同时模型的输出质量还受到诸多因素的影响模型自身的指令遵循能力不同模型对指令的敏感度不同有些模型天生对自然语言指令理解精准而有些则需要更多示例或严格格式才能执行。即使提示词写得再清晰如果模型本身理解能力有限也可能出现偏差或格式不一致的输出。模型参数量与训练特性参数量大、训练数据丰富的模型通常能更好地理解复杂提示但仍可能受任务类型、领域知识和上下文分布影响。小模型或针对特定领域微调的模型对提示的精确度和位置敏感性更高。上下文窗口大小与占用情况是否包含历史会话记忆能力、是否包含专业知识RAG也会严重影响模型输出效果。并且提示词越长占用的上下文越多模型在生成时可用的上下文就越少可能导致精度下降或忽略部分信息。提示词设计的迭代性与炼丹类似提示词需要多次试验、调整和优化才能找到“最优配方”。相同提示词在不同架构、不同参数的大模型中体现的效果也很可能会出现较大的差异所以需要反复的调测。这包括调整示例位置、优化示例内容、简化或细化任务指令、明确输出格式等。每一次调整都可能带来输出稳定性或准确性的提升直到达到理想效果。提示词设计就像炼丹不是单靠“完美配方”就一定生效还要结合模型自身能力、参数规模、任务难度和上下文窗口等因素。优秀的提示工程师需要像炼丹师一样实验、观察、调整才能让大模型稳定产出高质量结果。高阶Prompt优化方法思维链 (Chain of Thought, CoT)思维链 (Chain of Thought, CoT) 是一种通过引导模型“一步一步思考”来解决复杂问题的方法。它不是让模型直接给出最终答案而是要求模型首先输出一个详细的、逻辑连贯的推理过程然后再基于这个过程得出结论。这种方式模仿了人类解决复杂问题时的思考模式将一个大问题分解为一系列更小、更易于管理步骤。对于算术、常识和符号推理等任务思维链可以显著提升模型的准确性。最简单直接的实现方式就是在提示词的末尾加上一句“魔咒”“请一步一步思考” 或 “you must think step by step”。比如你直接问DeepSeek一个水果摊有5箱苹果每箱重15公斤。今天卖掉了35公斤还剩下多少公斤苹果他的回答是这样的其实他这个过程就是思维链。他会一步一步的计算得到结果。这是因为我们用的deepseek V4他本身就是一个带thinking的模型了。其实现在很多模型已经很强大了针对一些数学问题他都会用COT的方式来解答了。这也证明了COT是行之有效的。当然在工作中还是有些场景可以用COT的方式来解决一些不稳定的问题。当然大模型本身不擅长精确的数学计算所以上面的例子中就算 Prompt 中加入了 CoT也不一定就能保证结论100%正确模型也可能在任何一步算错。但是思维链的核心价值并不在于保证计算的绝对精确也不在于保证最终结果的绝对正确而在于它强制模型构建出一条清晰、正确的逻辑路径。CoT 的首要作用是确保模型正确地理解和分解了问题这是后续能跟正确解决问题的基础。其次当模型展示其推理过程时我们就能清晰地看到它的“思路”进而通过提示词为错误的步骤进行优化。合适的推理步骤也有助于后续我们的“工具调用”模型只需要知道在“在哪一步、应该调用哪个工具”就可以完成任务了。所以 CoT 非常适合用于我们的复杂任务场景。自我一致性 (Self-Consistency)这是智能体工程化的一种进阶用法它通过“少数服从多数”的原则来提高结果的可靠性。具体操作是我们让模型使用思维链对同一个问题进行多次、多样化的推理然后选择在这些不同的推理路径中出现次数最多的那个答案作为最终答案。这种方法的好处是即使模型在某一次的推理中出现了小错误但只要大多数推理路径都能指向正确答案我们依然可以获得一个高置信度的结果。它极大地增强了复杂推理任务的稳定性和准确性。实现步骤多次调用模型使用相同的 Prompt以奇数次如 3、5、7 次方式调用模型也可以是不同大模型确保能通过超过半数投票决策。收集推理结果记录每次模型输出的完整推理路径和最终结论。结果汇聚与分析将所有结果汇总后可以再次交给模型进行总结或统计判断哪个结论在多个推理路径中出现最频繁。确定最终答案选择出现次数最多或一致性最高的答案作为最终输出。优化建议并发调用奇数次调用大模型可并行执行显著降低整体响应时间。参数调节适当调整tempature温度系数或者top-p等模型超参控制模型输出的多样性。条件允许的话也可以使用不同的大模型以增强推理路径的多样性。思维树Tree of ThoughtsTOTTOT的核心思想是“不要满足于第一个想到的答案而是像下棋一样探索多种推理路径并进行前瞻性评估最终选择最优解。”传统的让模型回答问题的方式是“一条道走到黑”即一步一步推导出一个答案。这对于复杂问题很危险因为模型可能在第一步就走上错误的推理路径。它只产生一种思路没有备选方案。无法进行“回溯”或“自我纠正”。TOT 就是为了解决这些问题而诞生的。可以把TOT想象成下象棋思维分解你正在思考下一步棋怎么走。思维生成你脑子里想到了3种可能的走法走马、拱兵、飞象。状态评估你逐一推演每种走法之后对手可能会怎么应对以及后续几步的局势如何最终判断出“走马”能为你带来最大的优势。如[任务]设计订单到期关闭方案[步骤一]设计3种订单到期关闭的方案[步骤二]对每种方案评估他的优缺点[步骤三]综合3种方案选择一个最优方案反思机制 (Reflection)与自我一致性类似反思机制 (Reflection) 同样也是智能体工程化进阶用法。它是一种让模型自我批判、自我修正的策略。它先让模型先生成一个初步的答案通过大模型之间的多轮对话的过程引导模型对答案进行评估和反思找出其中的不足最后再生成一个经过优化的最终版本。实现步骤生成初步答案接收用户Query注入带有CoT的Prompt之中调用大模型获取初步的答案。反思审查结合用户的原始Query以及初步答案一起发送给大模型进行分析研判判断答案是否能够满足用户Query的要求如果不满足则提出相应的改进意见如果满足则可以直接进行输出。答案修订初步答案如果不满足要求则将用户原始Query 答案 反思审查的改进结果进行汇聚合理结构化分层发送给大模型要求其生成修订版答案并附带修改说明比如哪些地方有误如何修正修正成什么样了。生成最终答案对修订后的结果以及用户原始Query进行总结输出。优化建议增加迭代环节可以在答案修订和反思审查环节增加循环迭代通过反复修订审核持续提升答案的精度。生成 → 反思 → 修订 → 再反思 → 再修订 …… → 生成最终答案但是会有两个问题需要特别注意响应时间反复迭代会导致响应时间急剧增长仅适合于离线功能模型上下文由于审核需要结合之前的历史信息来做判断可能会导致内容的不断堆叠导致上下文爆炸很容易超出模型上下文的限制需要有更多其他的优化策略比如记忆压缩、摘要提取等等。自我一致性Self-Consistency和反思机制Reflection本质上并不与思维链CoT处于同一维度。CoT 关注的是如何在单次调用中通过提示词设计来激发模型显式地生成推理过程。而 自我一致性 与 反思机制 则属于 更高层次的智能体工程化策略。它们不依赖单次调用而是通过多轮或多次模型调用对不同输出结果进行汇总、比较、反思或再加工以获得更可靠、更高质量的答案。ReAct 推理行动 (Reason and Act)ReAct 框架是将大模型真正转化为“智能体 (Agent)”的关键技术之一因为它让模型具备了实时与外部世界互动以及动态规划的能力。它是一种结合思考Reason与行动Act的智能体框架用于指导大模型在完成复杂任务时通过思考、行动、观察、反馈 的反复循环迭代来逐步逼近或者完成任务。这种交错循环模仿了人类解决问题的自然模式先思考后行动再观察结果后修正思考。实现步骤思考推理规划下一步、分解复杂任务或分析上一步行动的结果生成具体的执行计划。延续了思维链CoT的优势提供了动态推理和自主规划的能力。行动工具调用基于执行计划中每一步的指令要求模型会自主选择并执行一个外部工具或 API如联网查询、数学计算、代码生成、知识库查询等。这也是大模型能够与外部世界建立连接的接口。观察 / 反馈反馈智能体成功获取到工具执行的结果后将会根据原始问题和工具的执行结果判断任务是否完成如果未完成则继续返回思考推理生成下一步行动的结果反复循环迭代。如果已完成则直接进入总结阶段。输出总结当判断任务已完成时它会整合整个循环过程中收集到的所有关键信息生成一个全面、连贯的最终答案。结构化Prompt框架与其说是“框架”其实更准确地说它们是一些 提示词模板Prompt Templates。就是用来规范你向大模型发出的请求让模型更好理解你的意图、背景、角色、格式要求等。RTFRole–Task–FormatRTF 是最基础的提示词模板。它主要强调三个核心要素角色设定Role、任务说明Task 与 输出格式Format。这种结构简洁高效适合通用类任务或者简单任务。结构说明Role角色定义模型的身份或专业背景Task任务说明模型要完成的具体目标Format格式指定输出的格式、风格或语气# Role 你是一名资深市场分析师。 # Task 请分析当前中国新能源汽车市场的发展趋势指出未来三年的主要增长点。 # Format 请以 Markdown 表格形式输出包含“趋势”、“原因”、“预测增长率”三列。ICIOInstruction–Context–Input–Output强调通过清晰分隔任务指令、背景信息、输入与输出要求使模型在复杂场景中仍能高效执行。适合需要上下文理解或多阶段推理的任务。结构说明Instruction指令核心任务说明Context上下文背景与辅助信息Input输入具体需要处理的文本或数据Output输出结果格式或表达要求# Instruction 请为指定产品生成一段简短、有吸引力的营销文案。 # Context 你是一名资深品牌营销文案策划擅长为电商产品撰写高转化率的广告语。目标受众是年轻、注重品质的都市白领。 # Input 产品名称AI健康监测手环 产品特点实时监测、可测量血压血氧、监测睡眠和呼吸暂停、外观时尚简约、佩戴轻盈舒适 # Output 请输出一段不超过100字的营销文案请使用markdown格式语言简洁、有节奏感突出健康的生活方式。CRISPECapacity–Role–Insight–Statement–Personality–Experiment能力Capacity、角色Role、背景信息Insight、任务指令Statement、个性风格Personality和实验性回复Experiment旨在让提示词更“人格化”与“可控化”。它通过对模型能力、角色、洞察、语气及实验性的输出控制使生成内容更具创造性和一致性常用于学术、科研、内容创作等领域。结构说明Capacity确定智能体的能力边界 Role明确身份定位Insight提供必要的知识视角或洞察点也就是上下文背景Statement定义具体的任务目标也就是TaskPersonality设置个性化的语气与风格Experiment指定探索性要求如假设、生成多个答案等# Capacity and Role能力与角色你是一名资深市场策略分析师擅长品牌定位与消费趋势洞察熟悉零售行业的数据分析与竞争对比方法。# Insight洞察某科技品牌计划在明年推出一款主打AI功能的智能手表目标群体为25-40岁的城市白领。 公司希望通过差异化策略抢占高端可穿戴设备市场。# Statement声明请撰写一份市场策略分析报告包含以下内容1. 当前智能手表市场格局与主要竞争者分析2. 目标用户画像与购买动机3. 产品差异化与品牌定位建议4. 三条可执行的市场推广策略# Personality个性请以专业咨询顾问的语气撰写逻辑清晰、数据导向。 报告语言应简洁有力避免空泛表达。# Experiment实验在报告结尾请额外提供一个“创新性市场假设” 例如基于AI健康数据洞察的“主动健康推荐”功能 并简要说明这一创新可能带来的商业价值与潜在风险。CO-STARContext–Objective–Style–Tone–Audience–ResponseCO-STAR 是一种结构化的提示词框架旨在通过明确任务要素帮助用户更精准地向 AI 传递需求提升输出质量。适用于有明确目标或需要结构化输出的任务尤其是复杂或中等复杂度的场景如企业报告、课程设计、市场策略分析等。任务越复杂、输出越结构化、可控性越高使用 CO-STAR 的效果越明显。结构说明CContext背景提供任务相关的场景、前提或背景信息让模型理解“为什么做”。OObjective目标明确希望达成的具体结果或目的帮助模型聚焦“做什么”。SScope范围界定任务的边界包括内容涵盖范围、限制条件等避免模型生成无关内容。TTone语气指定输出内容的风格如正式、幽默、专业或轻松等确保表达与情境一致。AAudience受众说明内容的目标读者或接收对象帮助模型选择合适的表达方式和术语。RResponse响应形式要求输出的格式、结构或呈现方式如列表、短文、步骤或表格等使输出便于直接使用。#Context背景近年来青少年沉迷社交媒体、遭遇网络不良信息的问题频发学校计划开展相关主题教育活动#Objective目标帮助青少年理解合理使用社交媒体的重要性并提供可操作的建议#Scope范围聚焦13-17岁青少年涵盖使用时长管理、信息辨别、隐私保护3个核心方面避免过于学术化的理论#Tone语气亲切、鼓励像学长学姐的建议避免说教#Audience受众初中至高中阶段的学生#Response响应形式分点列出5条具体建议每条配一个简短案例或比喻。TIDD-ECTask Type–Instructions–Do–Don’t–Example–Content用于明确任务目标、执行指令、允许与禁止行为、提供示例和背景信息。它通过清晰的任务分解和操作规范帮助大语言模型生成更精准、可靠和可控的输出。适用于需要明确指导和规范哪些能做哪些禁止做的任务如教育培训、法律咨询、技术支持等领域。结构组成T任务类型明确任务的性质和目标。I指令提供执行任务的具体步骤或指导。D应做列出应当执行的具体操作或行为。D不应做指出应避免的错误或不当行为。E示例提供期望输出的示例以便模型理解预期结果。C用户内容用户提供的背景信息或数据供模型参考。# 任务 撰写法律意见书 # 指令 根据客户提供的案件信息分析法律风险并提出可行建议 # 你应该做-结合相关法律法规进行分析-条理清晰地列出风险点-提供操作性建议 # 你禁止做-不要提供具体的法律诉讼策略或个案判决-避免主观推测确保内容专业客观 # 示例 客户希望了解合同条款中的潜在风险分析指出关键条款可能存在的履约争议并给出建议如完善合同条款或加强证据准备 # 用户内容-案件类型商业合同纠纷-关键条款付款条款、违约责任、交付时间BROKEBackground–Role–Objective–Key Result–Evolution用于明确任务背景、角色定位、目标设定、关键结果和改进方向。它通过对上下文、身份、任务目标及衡量标准的结构化描述引导大模型生成更贴合目标、可评估和可迭代优化的输出。适用于需要角色扮演、目标导向及持续改进的任务如活动策划、产品设计、内容创作等领域。结构组成B背景 Background描述任务的背景信息或上下文为模型提供必要的理解依据。R角色 Role明确模型在任务中应扮演的角色或身份以引导输出风格和深度。O目标 Objective定义任务的具体目标或预期结果使模型聚焦于核心任务。K关键结果 Key Result设定衡量任务成功的标准或指标确保输出可评估。E进化 Evolution提供改进建议或后续步骤支持模型生成的内容可持续优化。# 背景Background学校希望提高学生的环保意识计划开展一次以校园环保为主题的活动。# 角色Role作为校园活动策划师负责设计活动方案并确保可执行性。# 目标Objective通过活动让学生了解环保知识并积极参与实践。# 关键结果Key Result活动结束后学生参与率达到80%以上提交的环保创意作品数量不少于50份。# 进化Evolution根据活动反馈调整宣传策略和活动形式优化互动环节使下一次活动更具吸引力。一些建议在使用提示词时没必要过于拘泥于哪种框架。结构化提示词的框架还有很多其实更多的都是在反复制造概念。归根结底最重要的就是明确几个核心要素角色定位、任务目标、上下文背景、以及输出格式。提示词可以灵活调整和组合千万不要死板。把大模型当人看把大模型当人看把大模型当人看重要的事说三遍是人就会犯错就有可能没有按照你的要求来输出所以在没有达到你理想的输出要求的时候不要着急你要针对性的调教他、指导他合理的调整提示词及格式保持提示词结构的清晰且具体明确的任务指令同时也避免信息过载确保模型上下文信息不回过多不会被过多细节干扰。所以只要抓住这些提示词的主要部分灵活的应用就能获得高质量、可控的输出。Prompt评测方法当我们设计开发出了一个提示词后是否能让大模型给出我们想要的、高质量的回答。那就需要一套方法来评估它是否真的有效或者说是绝大多数场景下是有效的。大模型提示词的评测方法主要分为两类人工评测 和 自动评测。针对提示词的评测其实主要还是靠人工评测的所谓的炼丹过程就是提示词调优的过程只有一次一次的根据问答结果不断的调整才能让提示词更好而一个提示词到底好不好很多时候机器不如人的感受更加直接和明显人工评测利用行业专家或目标用户根据他们的主观判断、专业知识和实际体验对模型输出的质量进行主观评估和打分。人工评测就是评测的最权威、最可靠的评估方式最贴近实际用户的体验但缺点是成本高、耗时长。人工评测通过人工打分或标注来评估模型输出质量更能捕捉文本的主观质量。评测维度在设计人工评测标准时可以从以下几个维度入手不同任务的侧重点不一样维度说明相关性输出是否与提示词要求紧密相关没有偏题。准确性信息是否真实、无错误没有胡编乱造。逻辑性思维是否连贯、结构合理没有前后说法不一致的情况出现。流畅性语言是否自然、表达是否顺畅没有出现胡言乱语的情况。创造性是否展现出创造性的思维或者全新的思维角度。完整性内容是否覆盖了用户的全部任务要求。有害性是否包含偏见、歧视、暴力或不安全内容。如何打分除了上述维度还需要明确评委应当如何进行判断和反馈常见的方式有两种绝对评分对每一个结果单独打分例如 1-10 分不需要与其他结果比较。这用于衡量单个提示词的绝对质量是否达标。相对排名同时看到由不同提示词生成的多份结果并选择相对最优的结果。这用于精确地比较不同提示词设计间的差异性常用于最终的优化决策。自动评测有的时候人工评测的工作量比较大那么也可以借助自动评测但是记住自动评测一般是适合特定场景的。评测指标准确率和召回率是用于评估分类模型尤其是二分类问题性能的指标。它们从两个不同的角度来衡量模型的好坏通常此消彼长需要权衡。比如我们有一个模型任务是从100个人中识别出谁是“坏人”正类谁是“好人”负类。首先我们需要了解一个更基础的表格——混淆矩阵它是计算所有指标的基础。模型的预测结果和真实情况组合会得到四种情况真实是“坏人” (正类)真实是“好人” (负类)预测为“坏人”真正例 (TP)假正例 (FP)预测为“好人”假负例 (FN)真负例 (TN)我们来逐一解释TP你预测他是坏人他确实是坏人。 - 抓对了FP你预测他是坏人但他其实是好人。 - 冤枉了好人FN你预测他是好人但他其实是坏人。 - 放跑了坏人TN你预测他是好人他确实是好人。 - 判断正确**精确率**模型“认为对的”结果中有多少是真的对的。准确率讲求的是“宁缺毋滥” 我抓的人要尽量保证每一个都是真正的坏人。我不在乎有没有漏掉几个坏人但我非常在乎不能冤枉好人。典型场景垃圾邮件标记。**召回率**所有“真的对”的结果中模型找回了多少。召回率讲求的时候“宁可错杀一千不可放过一个”我的目标是尽可能把所有的坏人都抓出来。即使这意味着可能会误抓一些好人我也要确保漏网的坏人越少越好。典型场景疾病筛查。F1 ScoreF1 Score是平衡精确率和召回率的指标F1分数是准确率和召回率的调和平均数。它同时考虑了这两者只有当准确率和召回率都很高时F1分数才会高。评测方法BLEU 主要用于机器翻译通过比较生成文本和参考文本之间的n-gram重叠度来打分。ROUGE 与BLEU关注精确率不同ROUGE更关注召回率即参考摘要中的词有多少被生成的摘要覆盖到了。METEOR 比BLEU更先进考虑了同义词、词干化等与人类判断相关性更高。BERTScore 利用BERT等预训练模型的上下文嵌入计算生成文本和参考文本在语义空间上的相似度更能捕捉语义相似性。基于更强模型的评测这是目前大模型领域最流行和实用的自动评测方法它用模型来弥补传统指标的不足。方法 借助一个能力更强、更稳定的模型比如参数量更大、规模更大让它扮演“专家裁判”。我们给这个“裁判模型”一个详细的评分准则如逻辑性、完整性、真实性、与提示词任务的关联度等让它对被测模型针对提示词的输出进行打分。prompt你是一个公正的裁判。请比较以下两个模型对同一个问题的回答从‘准确性和帮助性’维度判断哪个更好。只输出‘A’或‘B’。优势 速度快、成本低于人工最重要的是它能评估主观、复杂的文本质量让自动评测的结果更接近人类的主观判断。