LLM评估框架:从人工评分到人机协同的自动化实践
1. 项目概述一个让AI替你完成繁琐评估工作的框架如果你曾经手动评估过几十甚至上百个AI生成的文本比如产品描述、营销文案或者客服回复你肯定知道那是什么感觉——枯燥、耗时而且标准很难统一。我之前接手过一个项目需要为48个产品生成描述并按照7个不同的标准比如语法、语气、事实准确性等逐一打分。算下来就是48乘以7总共336个判断。我花了整整一个下午眼睛都快看花了最后自己都记不清第10个产品和第30个产品的“语气”标准是不是用同一把尺子量的。这种重复性劳动不仅效率低下更可怕的是会引入难以察觉的主观偏差。这正是herman181920/llm-eval-framework这个项目要解决的问题。它不是一个需要你从头写代码的SDK而是一个给AI编程助手比如 Claude Code, Cursor看的“剧本”或“操作手册”。核心思路非常巧妙你不再是那个埋头苦干的评分员而是变成了一个项目总监。你负责把握大方向、做出关键决策比如评估标准是什么、用什么模型来评分而具体的、繁琐的执行工作——阅读材料、理解标准、逐条评分、生成报告——全部交给你的AI助手去完成。整个框架设计得像一个交互式向导通过一系列选择题和确认步骤引导你和AI助手共同完成从零搭建评估体系到输出最终结果的全过程。对于上面那个48x7的评估任务使用这个框架后整个过程可以压缩到20分钟左右并且输出一份结构清晰的Excel评分表。这个框架最初是为一门名为《GenAI和LLM应用》的课程作业量身打造的但它背后的理念——将评估流程标准化、自动化并将人类智慧聚焦于高阶决策——具有普适性。无论你是需要评估营销文案、检查代码注释、审核合同条款还是任何涉及对LLM输出进行多维度质量评估的场景这个框架的架构和思路都极具参考价值。它特别适合产品经理、内容运营、研究人员以及任何需要系统性评估AI生成内容质量但又不想陷入重复劳动的专业人士。2. 核心设计思路从“人工评分”到“人机协同指挥”这个框架的成功关键在于它颠覆了传统的“人操作工具”模式转而采用了“人指挥AI代理”的协同范式。我们来拆解一下它的核心设计思路这能帮助我们理解为什么它有效以及如何将其应用到自己的项目中。2.1 问题定义与解构将主观评估客观化、流程化任何评估工作的第一步都是明确“评什么”和“怎么评”。传统手工评估的痛点在于标准往往存在于评估者的大脑里是模糊且易变的。这个框架的第一步就是强制性地将这个内部标准外部化、结构化。它假设任何LLM输出评估都包含三个核心要素评估对象你需要评估的LLM生成内容比如产品描述及其原始上下文比如产品信息CSV。评估标准一个清晰的、有依据的评分量表。框架的亮点在于它默认提供了一套基于真实文案写作书籍如Robert Bly, Claude Hopkins的经典著作构建的专家知识库用于定义“流畅度”、“语法”、“语气”等主观性较强的标准让评分有据可依而非凭空想象。评估执行者谁/什么来执行评分。框架提供了多种选择从免费的让你的AI编程助手直接评分、到本地的使用Ollama运行开源模型、再到付费的调用OpenAI/Anthropic的API。框架的设计者深刻认识到让用户一次性提供所有这些信息是困难的。因此它采用了渐进式披露和引导式选择的策略。通过AGENT.md这个“剧本”AI助手会像一个有经验的顾问一样一个阶段一个问题地引导你。例如它不会一上来就问“你的评估标准是什么”而是先问“我们评估的材料是什么A我的实际作业文件 B先用示例数据试试 C其他情况”。这种设计极大地降低了使用门槛即使你对技术细节不熟悉也能在引导下完成复杂配置。2.2 智能体Agent作为核心执行引擎这里的“智能体”不是指某个特定的AI模型而是指你的AI编程助手如Claude Code, Cursor在阅读了框架的“剧本”AGENT.md后所扮演的角色。这个角色被设计成一个严格遵循流程、具备工具使用能力能运行Python脚本、读取文件的自动化助手。其工作流程可以概括为解析与验证智能体首先引导你提供原始数据Notebook和CSV然后自动运行内置的validate.py脚本。这个脚本会检查数据格式、列名映射并确认LLM描述是否已生成。这一步相当于在开工前清点并检查所有工具和材料避免后续步骤因数据问题而失败。知识库构建与标准制定智能体引导你选择评分标准的知识来源。你可以直接使用框架预提取好的专家标准expert_rubric.md最快也可以选择重新从提供的7本电子书中提取最新知识甚至可以加入你自己的参考资料。这个过程确保了评估标准的专业性和可追溯性。评估代理Rater Agent架构设计这是框架最精妙的部分。对于每一个评估标准如“语法”框架会指导智能体创建一个“专家评分代理”。这个代理不是一个新模型而是一个高度特化的提示词Prompt模板它封装了针对该标准的评估逻辑、评分规则和输出格式。例如“语法专家代理”的提示词会明确要求检查主谓一致、时态、标点等并输出“优秀/良好/合格/差”的等级。agents/TEMPLATE.md就是这个提示词模板的蓝图。运行时执行与汇总当所有“专家评分代理”都创建完毕后智能体会自动遍历每一个待评估的产品描述依次调用相应的代理进行评分并实时汇总结果。最后将所有结果整理并导出为结构化的Excel文件。注意整个过程中你作为使用者核心工作是在每个决策点做出选择A/B/C。你不需要写一行代码也不需要直接操作命令行。你的AI助手负责理解你的选择并执行所有相应的具体操作。这种将“决策”与“执行”分离的模式正是提升效率和一致性的关键。2.3 配置的灵活性与默认的合理性一个好的框架不能是铁板一块。llm-eval-framework在提供开箱即用体验的同时也预留了充分的定制空间这体现在config.yaml配置文件和交互式选择中。数据适配在初始验证阶段validate.py会主动识别你的CSV文件列名并让你确认或修正映射关系。这意味着框架不假设你的数据表头一定叫product_name或description它能够适应不同的数据结构。标准定制如果你的作业需要评估10个标准而不是默认的7个在对应的阶段你可以选择为新增的标准“生成新的定义”框架会利用知识库帮助你构建这个新标准的评估逻辑。执行引擎选择在“选择评分模型”的阶段你可以根据预算和需求选择。如果追求零成本就选“Agent Rater”用你的AI编程助手评分如果追求更高的评估一致性或想用更强大的模型可以选择本地Ollama或付费API。这种设计让框架既能用于教学和轻量级任务也能胜任更严肃的评估需求。实操心得理解“Fast Mode”的适用场景框架提到了一个“Fast Mode”快速模式。在这个模式下AI助手会跳过所有确认步骤直接采用所有默认配置并运行。这非常适合于你已经熟悉了整个流程并且当前任务的评估标准与框架预设高度一致的场景。例如你第二次、第三次用这个框架评估类似的营销文案。但对于第一次使用或者评估标准有特殊要求时强烈建议走完完整的交互流程。这不仅能让你更清晰地理解评估体系是如何构建的也能在出现问题时快速定位是哪个环节的配置出了偏差。盲目使用“Fast Mode”可能会得到一份看似完整但不符合你真实需求的评估报告。3. 从零开始的完整实操流程理论讲得再多不如亲手跑一遍。下面我将以评估一组AI生成的产品描述为例带你完整走一遍流程。假设你已经在电脑上安装好了Cursor或Claude Code和Python 3.10。3.1 环境初始化与项目引导首先我们需要获取框架并完成基础准备。# 1. 克隆仓库到本地 git clone https://github.com/herman181920/llm-eval-framework.git cd llm-eval-framework # 2. 运行安装脚本 bash setup.shsetup.sh脚本通常会做以下几件事检查Python版本、创建虚拟环境如venv、安装必要的Python依赖包如pandas,openpyxl用于处理Excelnotebook用于解析ipynb文件等。运行完成后你的本地环境就准备好了。接下来打开你的AI编程助手这里以Cursor为例将整个llm-eval-framework文件夹作为项目打开。然后在Cursor的聊天窗口中输入框架的启动指令“Help me evaluate my LLM outputs.”发送这条信息后有趣的事情就发生了。Cursor作为智能体会开始阅读项目根目录下的CLAUDE.md和AGENT.md文件。AGENT.md就是它的“剧本”它会严格按照里面定义的8个阶段Phase开始与你对话。3.2 阶段详解与智能体的八步对话智能体Cursor会一个阶段一个问题地引导你。我们来看看每个阶段的核心决策点。阶段1数据载入与验证智能体Q1 — 我们手头有什么材料 (A) 我的实际作业文件 — 我有一个notebook和一个CSV/评估表 (B) 先用示例数据试试 (examples/rated_output.xlsx) (C) 其他情况 — 我来描述一下 你A选择A意味着我们将使用自己的真实数据。智能体Q2 — 请提供你的notebook文件(.ipynb)和产品数据文件(CSV或已包含描述的评估表)的路径。 你~/projects/my_llm_assignment/notebook.ipynb ~/projects/my_llm_assignment/products.csv这里需要提供两个文件的绝对路径或相对于项目目录的路径。智能体会读取这两个文件并自动在后台运行python validate.py --csv products.csv --notebook notebook.ipynb。智能体[读取文件中运行validate.py生成摘要] Notebook检测到7个评估标准。输入数据48行。描述已生成。 Q3 — 这些信息看起来对吗 (A) 正确 — 进入阶段2 (B) 列映射有误 — 我来修改 (C) 描述还未生成 — 现在生成它们 你Avalidate.py脚本的作用非常关键。它不仅检查文件是否存在还会解析你的Jupyter Notebook识别出里面定义了哪些评估标准例如通过查找包含“Fluency”, “Grammar”等关键词的单元格。读取你的CSV文件查看列名并尝试匹配“产品ID”、“产品名称”、“AI生成描述”等关键列。给出一个清晰的摘要。你务必仔细核对这个摘要确认标准数量、数据行数、描述状态都符合预期。这是避免后续工作跑偏的第一道也是最重要的保险。阶段2评估标准Rubric知识源选择智能体Q4 — 选择评估标准的来源 (A) 使用预提取的专家标准 expert_rubric.md最快默认 (B) 重新通过NotebookLM从7本书中查询提取约5分钟 (C) 我想先加入自己的PDF资料 你A选A推荐初次使用框架已经预置了一份从《The Copywriter‘s Handbook》等经典书籍中提取、凝练好的评估标准定义。这省时省力且标准质量很高。选B如果你怀疑预提取的知识过时了或者想体验/验证这个知识提取过程可以选B。这需要你有Google账号并且能访问NotebookLM服务。智能体会引导你完成授权和查询过程。选C如果你所在的领域特殊比如评估法律文书或医学报告你可以加入自己领域的权威PDF让框架基于你的资料构建评估标准。阶段3-4逐项审定评估标准与构建评分代理接下来智能体会根据你在阶段1中确认的评估标准数量比如7个逐个向你展示其默认定义来自expert_rubric.md。例如对于“Grounding事实依据性”智能体正在处理标准 #4: Grounding。 默认定义“描述必须准确反映产品CSV中提供的所有属性尺寸、颜色、材质等不得捏造或歪曲信息。对于标注了‘NOT’约束的属性如‘NOT red’描述中必须明确避免提及。” Q5 — 如何处理此标准 (A) 保持默认定义 — 进入下一标准 (B) 微调此定义 — 我将提供修改意见 (C) 基于知识库书籍生成全新定义 你A对于大多数标准选择A即可。如果你对某个标准有特别的理解比如你认为“Tone语气”不仅要“积极”还要包含“紧迫感”那么可以选择B进行微调。智能体会根据你的输入更新该标准的定义。在这个过程中智能体实际上在后台做一件事为每一个标准实例化一个“评分代理”。它依据agents/TEMPLATE.md模板将你确认或修改后的标准定义、评分等级如Good/OK/Poor、评分规则填充进去生成一个专用于该标准的、结构化的提示词。这个提示词未来会被用来“询问”评分员可能是AI助手本身也可能是另一个LLM。阶段5选择评分执行引擎Rater这是关于“谁来做评分”的关键决策。智能体Q6 — 选择评分执行方式 (A) Agent Rater — 由我你的AI助手直接进行评分零成本 (B) Ollama Rater — 使用本地Ollama运行的模型评分需安装Ollama (C) API Rater — 调用OpenAI或Anthropic的API进行评分产生费用 你A选A零成本方案你的AI编程助手Cursor将直接扮演评分员。它会使用阶段4生成的专家代理提示词对每条产品描述进行评分。这是框架最核心、最常用的模式。选B本地可控方案如果你希望评分过程完全在本地进行或者想使用特定的开源模型如Llama 3.1 Qwen2.5需要先在本机安装并运行Ollama。选择后智能体会让你指定Ollama中的模型名称。选C高性能/一致性方案如果你需要极高的评分一致性或者处理量极大可以选择付费API。选择后智能体会引导你配置API密钥和选择模型如GPT-4o, Claude 3.5 Sonnet。注意这会产生实际费用请谨慎评估预算。阶段6最终检查与确认在开始大规模评分前智能体会展示一份“作战计划”总结包括评估对象概览、采用的7个标准及其定义、选择的评分引擎。你需要最后一次确认所有配置无误。阶段7自动化评分执行确认后智能体开始工作。你会在聊天窗口中看到实时的进度反馈智能体阶段7 — 正在评估 48个产品 × 7个标准... [15/48] 产品IDKC-001 → 流畅度良好 语法良好 语气合格 事实依据良好 长度良好 延迟良好 成本良好 → 通过 ...这个过程可能会持续10-20分钟具体取决于产品数量、标准数量和评分引擎的速度。你可以看到每个产品在各个标准上的初步评分结果。阶段8结果输出与后续操作智能体评估完成。48个产品中41个通过85%。 主要的失败集中在“事实依据性”标准上特别是那些带有“NOT”约束的产品。 评估结果已保存至outputs/evaluation_sheet_20241027.xlsx Q7 — 下一步做什么 (A) 完成并退出 (B) 重新运行某个标准的评估 (C) 保存本次使用的所有智能体提示词 你A至此核心流程结束。你可以打开outputs/目录下的Excel文件里面会有一个详细的表格每一行是一个产品每一列是一个评估标准及其评分并且很可能还有一个“总体是否通过”的结论列。你可以基于这个表格进行深入分析比如找出“事实依据性”普遍较差的某一类产品回头优化你的LLM提示词。4. 核心组件深度解析与定制指南要真正掌握这个框架甚至根据自己的需求进行定制就需要深入理解它的几个核心组件。这些组件就像乐高积木理解了它们你就能搭建出属于自己的评估流水线。4.1 AGENT.md智能体的灵魂“剧本”AGENT.md是整个框架的指挥中枢。它不是一个可执行的程序而是一份给AI编程助手看的、高度结构化的自然语言指令集。其核心结构遵循“阶段-问题-分支”的逻辑。一个典型的阶段定义如下## Phase 2: Rubric Source Selection **Goal:** Determine where the evaluation criteria definitions come from. **Context for the Agent:** You have just confirmed the input data. Now the user needs to choose the source of truth for the rubric. The default and recommended path is to use the pre-extracted expert knowledge. **Question to Ask User:** Q4 — Which rubric source would you like to use? (A) Use the pre-extracted expert_rubric.md (fastest, recommended for first-time users) (B) Re-query NotebookLM with the 7 provided books (takes ~5 minutes, requires internet and Google auth) (C) I want to add my own PDFs first, then extract **Agent Actions Based on Choice:** - If (A): Load knowledge_base/expert_rubric.md into memory. Proceed to Phase 3. - If (B): Guide the user through authenticating with Google NotebookLM, upload the books from knowledge_base/books/, and run extraction queries. Save the new rubric. Proceed to Phase 3. - If (C): Ask user for PDF paths, add them to a temporary knowledge base, then proceed as (B).这份“剧本”的精妙之处在于它用明确的目标Goal、上下文Context、用户问题Question和分支动作Actions来规范智能体的行为。这使得不同AI助手Claude Code, Cursor, Codex在执行时都能保持高度一致的行为逻辑而不是自由发挥。如果你想定制流程比如增加一个“数据预处理”阶段你可以修改AGENT.md。你需要清晰地定义新阶段的目标、要问用户的问题、以及根据用户选择智能体应该执行什么操作例如运行一个你写的preprocess.py脚本。这要求你对智能体的能力如文件操作、运行命令有一定了解。4.2 专家知识库与Rubric构建让评分有据可依knowledge_base/目录和expert_rubric.md是框架专业性的基石。主观的“写得好不好”被拆解为可衡量的“是否符合经典文案原则”。原始知识库books/包含了7本关于文案写作和转化的电子书如《The Copywriter‘s Handbook》。这些是原始的、未经处理的“原料”。提取后的知识库expert_rubric.md这是通过NotebookLM等工具从“原料”中提取、总结出的“精华”。它的结构通常是# Fluency (流畅度) **Definition:** The text should read smoothly and naturally, without awkward phrasing or abrupt transitions. **Good:** Sentences flow logically from one to the next. Uses transitional words appropriately. **OK:** Generally readable but may have a few clumsy sentences. **Poor:** Choppy, disjointed, or confusing to read. **Source:** Principles derived from On Writing Well and The Elements of Style.每个标准都包含了定义、不同评分等级的具体描述以及知识来源。这极大地减少了评分时的主观臆断。自定义知识库如果你的评估领域是“代码可读性”那么你可以将《Clean Code》和《The Pragmatic Programmer》的PDF放入books/目录然后选择在阶段2重新提取或者手动编写你自己的expert_rubric.md。关键是确保你的评估标准定义清晰、有权威依据并且不同等级的描述有可区分的操作性定义。4.3 评分代理模板标准化评估单元agents/TEMPLATE.md定义了每个“专家评分代理”的构造蓝图。它本质上是一个提示词模板。当智能体在阶段3-4为你处理“语法”标准时它会这样做从expert_rubric.md中读取“语法”的定义和评分细则。将这些内容填充到TEMPLATE.md的占位符中。生成一个最终给评分引擎如Cursor本身使用的提示词。一个简化版的模板可能长这样You are a specialist rater for the criterion: {criterion_name}. **Criterion Definition:** {definition} **Scoring Rubric:** - **Good:** {good_desc} - **OK:** {ok_desc} - **Poor:** {poor_desc} **Task:** Evaluate the following product description based ONLY on the above criterion. **Product Info:** {product_info} **Generated Description:** {generated_text} **Output Format:** Provide your rating as a single word: Good, OK, or Poor. Then, in one sentence, explain your reasoning.这个模板确保了每个标准的评估都是独立的、基于相同结构的。当你选择“Agent Rater”时Cursor就会拿着这个填充好的提示词去“问自己”然后给出评分和简短理由。定制提示词模板如果你发现默认的模板在某些标准上评分不准可以修改TEMPLATE.md。例如对于“事实依据性”你可能要求代理先提取产品属性再逐条核对描述。你可以增加指令如“First, list all factual attributes from the product info. Then, check each attribute against the description. Report any hallucination or omission.”4.4 配置与工具脚本框架的粘合剂config.yaml这是框架的全局配置文件。它可能包含了默认的模型温度temperature、最大令牌数max_tokens、评分重试次数、输出文件路径等。在“Fast Mode”下智能体会直接采用这里的全部默认值。你可以通过修改这个文件来改变框架的默认行为比如将默认评分引擎从“Agent”改为“Ollamallama3.1”。validate.py这个脚本是数据质量的守门员。除了前文提到的功能它内部可能通过解析Jupyter Notebook的JSON结构来识别包含特定标记的单元格或者使用pandas来推断CSV的编码和分隔符。一个重要的实操技巧如果你的数据格式非常特殊可以单独运行这个脚本进行调试python validate.py --csv your_data.tsv --delimiter “\t” --notebook your_notebook.ipynb确保它能正确识别你的数据后再进入主流程。utils/目录这里存放着可复用的工具函数。例如scoring.py可能包含将“Good/OK/Poor”转换为数值分数如2/1/0的逻辑deterministic.py可能提供一些确保评分一致性的方法如设置固定的随机种子notebooklm_client.py则封装了与NotebookLM API交互的细节。这些工具函数让主流程的“剧本”保持简洁而将复杂的逻辑封装在底层。5. 常见问题、故障排查与进阶技巧在实际使用中你可能会遇到一些问题。下面是一些常见情况的排查思路和我个人积累的经验技巧。5.1 启动与配置阶段问题问题1运行bash setup.sh时出现权限错误或依赖安装失败。排查首先检查Python版本是否为3.10或更高python3 --version。其次尝试手动创建虚拟环境并安装依赖cd llm-eval-framework python3 -m venv venv source venv/bin/activate # Linux/macOS # venv\Scripts\activate # Windows pip install -r requirements.txt # 如果存在此文件 # 或者手动安装常见依赖 pip install pandas openpyxl nbformat技巧建议始终在虚拟环境中运行项目避免污染全局Python环境。问题2AI助手如Cursor没有按照AGENT.md的流程走或者反应不对。排查确保你的AI助手具有足够的上下文长度并且已正确加载了整个项目文件夹。有时需要明确指示它“请阅读AGENT.md文件并遵循其中的步骤”。不同的AI助手对指令的解析能力略有差异。技巧在对话开始时可以更明确地发出指令“我将使用llm-eval-framework来评估我的LLM输出。请你扮演框架中定义的智能体角色严格遵循AGENT.md中描述的8个阶段流程来引导我。这是第一阶段的问题吗”5.2 数据与评估阶段问题问题3validate.py报告列名映射错误或找不到描述列。排查这是最常见的问题。打开你的CSV文件确认列名。框架通常寻找如description,generated_text,output之类的列名来定位AI生成的描述。如果你的列名是AI_Description你需要在阶段1的确认步骤中选择(B)来手动映射。技巧在运行框架前最好先手动用pandas快速查看一下你的CSV结构import pandas as pd; df pd.read_csv(‘your_file.csv’); print(df.columns)。确保描述文本所在的列没有多余的空格或特殊字符。问题4评估结果中某个标准如“Grounding”的失败率异常高。排查首先打开输出的Excel文件查看那些被标记为“Poor”的具体描述和产品原始信息。对比一下看是否是AI确实生成了错误信息幻觉。其次回顾阶段3中对该标准的定义。是否定义过于严苛例如“必须准确反映所有属性”如果产品有20个属性描述只提到了15个核心属性这算“Poor”吗你可能需要微调定义。技巧不要盲目相信第一次的评估结果。可以针对一批失败案例手动检查一下。有时问题不在AI生成的内容而在于评估标准本身需要根据业务场景进行校准。框架的灵活性允许你快速调整标准定义并重新运行特定标准的评估阶段8的选项B。问题5使用“Agent Rater”Cursor自身评分时感觉评分有点随机或不稳定。排查这是大语言模型固有的“不确定性”。同样的提示词在不同时间、不同上下文下可能产生略有差异的输出。解决细化标准检查并进一步细化expert_rubric.md中“Good/OK/Poor”的描述使其更具区分度和可操作性。修改模板在agents/TEMPLATE.md中增加约束例如要求“评分时必须严格引用定义中的具体条款作为理由”或使用“思维链”Chain-of-Thought指令“请逐步推理首先...然后...最后给出评分”。切换引擎如果一致性要求极高考虑使用“Ollama Rater”并选择一个合适的开源模型或者使用“API Rater”选择GPT-4等公认一致性更好的模型。这通常会带来成本和时间的增加需要在质量、成本、速度之间权衡。5.3 扩展与进阶应用技巧1批量评估不同提示词Prompt的效果。框架默认评估的是一组固定的AI输出。但你可以用它来比较不同提示词生成的质量。操作方法准备你的产品CSVbase.csv。用提示词A生成描述保存为outputs_A.csv。用提示词B生成描述保存为outputs_B.csv。分别用本框架评估outputs_A.csv和outputs_B.csv。对比两份评估报告的总通过率、各标准得分分布。这为提示词工程提供了数据驱动的优化方向。技巧2将框架集成到CI/CD流水线中。如果你在持续开发一个LLM应用可以将此框架作为质量门禁。思路将评估流程脚本化使用“Fast Mode”并指定所有参数。在每次代码提交或模型更新后自动运行评估脚本。设定一个质量阈值如总通过率80%如果低于阈值则自动失败并通知开发者。这需要你编写一个封装脚本自动调用AI助手可能需要通过API或直接调用框架的核心评分函数。技巧3开发自定义评估标准。框架自带的7个标准偏向通用文案。你可以为你的垂直领域开发专属标准。例如评估“客服回复”可以增加“同理心”、“问题解决率”评估“新闻摘要”可以增加“信息完整性”、“无偏见性”。为你新增的标准在expert_rubric.md中编写清晰的定义和评分等级。在agents/TEMPLATE.md中考虑是否需要为这类特殊标准设计略有不同的提示词结构。在阶段3当框架遍历标准时你会看到新增的标准并可以对其进行微调。这个框架的价值远不止于完成一次作业。它提供了一套方法论和一套可扩展的工具将LLM输出评估这项复杂、主观的任务转变为一个可重复、可审计、可优化的自动化流程。当你不再需要手动处理那336个判断时你就能将宝贵的精力投入到更重要的地方分析评估结果背后的原因迭代你的提示词或者思考如何将LLM更深度地融入你的业务逻辑。