Hermes 如何省token-配置

张

张建站

2026/4/27 17:48:40

10分钟阅读

Hermes 降低 Token 消耗全方案汇总2026 最新HermesNous Research Agent通过四层记忆、渐进式加载、上下文压缩、缓存复用、模型分级、输出控制六大核心机制可稳定降低30%–90%Token 消耗以下按 “配置优先、实战可落地” 整理。一、四层记忆架构源头控量最核心核心逻辑分级存储、按需召回避免全量注入上下文L1 核心记忆MEMORY.md≤800 tokens仅存最高价值项目上下文会话启动时冻结注入L2 用户画像USER.md≤500 tokens记录偏好 / 习惯固定开销L3 长时记忆SQLite FTS5全量历史存档检索摘要召回不直接注入原始对话L4 技能库默认仅加载名称索引≈20 tokens / 技能需用时才加载完整技能效果基础上下文固定在1500 tokens 内技能库膨胀不增加基础开销省 70%二、渐进式加载技能 / 工具零冗余核心逻辑三级按需加载避免一次性全量注入一级默认仅加载技能名称描述≈20 tokens / 个二级触发需用时调用skill_view(name)加载完整技能三级按需支撑文档 / API 仅在执行时加载工具优化启用Hybrid Tool Pre-Selection语义关键词检索仅注入 Top-K 相关工具 Schema省 40%–60%三、上下文压缩长会话必开1. 自动压缩config.yaml 配置yamlmodel: context_length: 200000 # 显式设模型真实窗口 max_tokens: 131072 # 限制输出避免超量 compression: threshold: 0.75 # 达75%窗口触发压缩默认0.5太早 target_ratio: 0.25 # 压缩后保留25% protect_last_n: 30 # 保护最近30轮不压缩效果长会话自动压缩省 30%–90%2. 手动压缩命令/compress一键压缩历史为摘要/budget查看 Token 预算与消耗启用渐进式截断早期对话极简摘要、近期保留完整压缩成本封顶≈32K tokens四、缓存复用重复请求省最多1. 系统 Prompt 缓存Anthropic 兼容yamlprompt_caching: enabled: true cache_system_prompt: true ttl: 3600 # 1小时调用apply_anthropic_cache_control_markers缓存部分享90% 折扣效果固定 System Prompt零重复消耗省 60%–90%2. 对话历史 LRU 缓存yamlsession: max_history_turns: 8 # 仅保留最近8轮 enable_lru: true淘汰最久未用历史兼顾连贯与成本3. 轨迹压缩缓存yamltrajectory_compression: target_max_tokens: 4000 summary_target_tokens: 500对话轨迹压缩至25% 体积保留关键语义五、模型与输出控制立竿见影1. 模型分级路由简单任务Haiku / 轻量模型复杂任务Sonnet / 中量级仅必要时Opus / 重量级效果省 30%–80%2. 输出长度硬限制yamlgeneration: max_tokens: 512 # 强制短输出避免冗余 temperature: 0.3 # 降低随机性减少无效生成效果省 14%–75%3. 精简输出指令对话中加只返回代码无解释配置开启minimal_output: true六、本地 / 离线与代理优化终极省 Token本地模型接入 OllamaLlama 3/CodeLlama100% 省 API Token代理路由用 TRAE/OpenClaw 做模型调度轻量模型做意图分类省 30%–70%禁用冗余模块关闭自动文档生成、多轮反思省 30%七、一键最优配置复制即用yaml# ~/.hermes/config.yaml model: context_length: 200000 max_tokens: 131072 compression: threshold: 0.75 target_ratio: 0.25 protect_last_n: 30 prompt_caching: enabled: true cache_system_prompt: true ttl: 3600 session: max_history_turns: 8 enable_lru: true trajectory_compression: target_max_tokens: 4000 summary_target_tokens: 500 generation: max_tokens: 512 temperature: 0.3 tool_selection: hybrid_search: true top_k: 8八、实战组合按场景个人开发四层记忆自动压缩 Prompt 缓存 →省 80%大型项目渐进式技能加载工具预选轨迹压缩 →省 90%长会话 / AgentLRU 历史渐进截断模型分级 →省 95%