LLM Cookbook 终极指南：10个Token控制与API调用优化技巧

张

张建站

2026/5/1 9:25:01

10分钟阅读

LLM Cookbook 终极指南10个Token控制与API调用优化技巧【免费下载链接】llm-cookbook面向开发者的 LLM 入门教程吴恩达大模型系列课程中文版项目地址: https://gitcode.com/datawhalechina/llm-cookbookDatawhale / llm-cookbook 是面向开发者的 LLM 入门教程基于吴恩达大模型系列课程中文版打造帮助开发者掌握 Token 控制与 API 调用优化的核心技能轻松构建高效的大模型应用。一、Token 基础理解大模型的积木 Token 是 LLM 处理文本的基本单位1个 Token 约等于英文单词的1/4或中文汉字的1/2。在 API 调用中输入和输出的 Token 总数会直接影响成本和响应速度。例如我爱自然语言处理这句话包含5个中文 Token而Hello world则是2个英文 Token。合理控制 Token 数量是优化 API 调用的第一步。![Token 表示示意图](https://raw.gitcode.com/datawhalechina/llm-cookbook/raw/d53a36772c76fef0f55295af102615dd498a60cd/content/选修-Large Language Models with Semantic Search/images/3-1.png?utm_sourcegitcode_repo_files)图语义空间中的 Token 分布示意图不同类型的词汇在向量空间中形成聚类二、API 调用基础配置从获取密钥开始在开始优化之前需要先正确配置 API 环境。以 OpenAI API 为例获取密钥的步骤如下登录 OpenAI 平台账户点击右上角头像选择View API Keys创建新的 API 密钥并妥善保存图OpenAI 平台 API 密钥获取页面红框标注了关键操作位置基础调用代码示例def get_completion_from_messages(messages, modelgpt-3.5-turbo, temperature0, max_tokens500): response openai.ChatCompletion.create( modelmodel, messagesmessages, temperaturetemperature, max_tokensmax_tokens ) return response.choices[0].message[content]代码来源content/必修二-Building Systems with the ChatGPT API/utils_zh.py三、Token 控制实用技巧1. 设置 max_tokens 参数精确控制输出长度 ⚖️在 API 调用时指定max_tokens参数可以限制模型的输出长度避免不必要的 Token 消耗。建议根据实际需求设置合理值如摘要任务可设为200-300简短回答设为100以内。2. 输入文本预处理去除冗余信息在发送请求前对输入文本进行清洗删除无关内容和格式标记使用摘要技术压缩长文本提取关键信息点3. 分块处理长文本突破 Token 限制当处理超过模型 Token 限制的长文本时如 gpt-3.5-turbo 为4096 Token可采用分块策略将文本分割为多个小块逐一处理每个块合并结果相关实现可参考content/必修四-LangChain Chat with Your Data/3.文档分割 Splitting.ipynb四、API 调用优化策略1. 选择合适的模型平衡性能与成本根据任务需求选择模型简单任务分类、短问答使用 gpt-3.5-turbo复杂任务创意写作、推理使用 gpt-4嵌入生成使用 text-embedding-ada-0022. 优化 temperature 参数控制输出随机性 ️temperature0输出更确定、集中temperature0.7输出更多样化根据任务类型调整事实性任务建议设为0-0.33. 批处理请求减少 API 调用次数将多个独立请求合并为批处理减少网络往返时间和调用次数。适用于批量分类、批量摘要等场景。4. 缓存重复请求避免重复消费对相同或相似的请求结果进行缓存尤其是问答系统中常见问题的回答可显著降低 Token 消耗。五、高级优化检索增强与 Token 效率在处理知识密集型任务时结合检索增强生成RAG技术可大幅提高 Token 使用效率将知识库向量化存储如使用 Chroma 向量数据库检索相关片段作为上下文传入模型仅基于相关上下文生成回答![基于 Chroma 的高级检索技术](https://raw.gitcode.com/datawhalechina/llm-cookbook/raw/d53a36772c76fef0f55295af102615dd498a60cd/content/选修-Advanced Retrieval for AI with Chroma/images/基于Chroma的高级检索技术.png?utm_sourcegitcode_repo_files)图Chroma 高级检索技术架构通过查询扩展、重排序等技术提升检索效率相关实现可参考content/必修四-LangChain Chat with Your Data/5.检索 retrieval.ipynb六、实践案例Token 优化前后对比优化前直接将整篇文档3000 Token传入 API生成摘要花费 300 Token总成本 3300 Token。优化后文档分块处理每块 500 Token共 6 块检索相关块2 块共 1000 Token生成摘要花费 200 Token总成本 1200 Token优化后节省约 64% 的 Token 消耗同时提升响应速度和准确性。七、总结成为 Token 优化大师掌握 Token 控制与 API 调用优化是每个 LLM 开发者的必备技能。通过本文介绍的10个技巧你可以显著降低 API 使用成本提高应用响应速度改善模型输出质量建议结合 content/必修二-Building Systems with the ChatGPT API 中的实例代码进行实践快速提升你的 LLM 应用开发能力想要深入学习更多 LLM 开发技巧立即 clone 项目开始探索git clone https://gitcode.com/datawhalechina/llm-cookbook【免费下载链接】llm-cookbook面向开发者的 LLM 入门教程吴恩达大模型系列课程中文版项目地址: https://gitcode.com/datawhalechina/llm-cookbook创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

7天掌握PyQt6：从零到一的Python桌面应用开发实战指南

7天掌握PyQt6：从零到一的Python桌面应用开发实战指南【免费下载链接】PyQt-Chinese-tutorial PyQt6中文教程项目地址: https://gitcode.com/gh_mirrors/py/PyQt-Chinese-tutorial PyQt6中文教程项目为Python开发者提供了完整的中文学习资源，帮助…...

2026/5/1 9:24:15 阅读更多 →

第二部分-光照与阴影——12. 反射与折射

12. 反射与折射 1. 概述反射和折射是创建逼真材质（如金属、玻璃、水面）的关键技术。Three.js 通过环境贴图（Environment Map）和 MeshPhysicalMaterial 的透射属性来实现这些效果。 ┌─────────────────────…...

2026/5/1 9:21:20 阅读更多 →

Exercises in Programming Style架构解析：Monolith到Actors的分布式演进

Exercises in Programming Style架构解析：Monolith到Actors的分布式演进【免费下载链接】exercises-in-programming-style Comprehensive collection of programming styles using a simple computational task, term frequency 项目地址: https://gitcode.com/g…...

2026/5/1 9:20:37 阅读更多 →