1. 问题结论先行:多数人以为“写得越多记忆越牢”,实测发现——跨会话检索准确率最高只提升到 68%,且三种策略的差异集中在前 3 次召回,之后全部塌缩为随机匹配我第一次把 OpenClaw 接入团队内部的 Python 自动化测试框架(基于 Playwright + pytest)时,信心满满地给它喂了 217 个历史 case 的执行日志、失败堆栈、修复方案和对应 PR 链接。我以为这下它能“记住”所有边界条件,下次遇到类似TimeoutError: waiting for selector "button#submit"就能直接推荐“加 wait_for_selector(timeout=15000) 并检查 iframe 切换”。结果呢?第三次会话里,它给我推荐了一段三年前某次 CI 崩溃时误删__pycache__目录的 shell 脚本——完全无关。这不是模型发疯,而是长期记忆写入与检索机制在跨会话场景下存在结构性失配。OpenClaw 的CLAUDE.md不是数据库,它是一套带语义权重的上下文锚点系统;而我们习惯性把它当成了可全文检索的 Elasticsearch。更关键的是:写入方式决定检索上限,不是模型能力决定准确率。我在三个真实项目中(一个金融接口自动化平台、一个 UI 自动化维保系统、一个内部 RPA 流程编排器)跑完对比实验后确认:无论你用什么模型(Claude 3.5 Sonnet / Qwen2.5-Coder-32B-Instruct / DeepSeek-Coder-V2),只要底层记忆写入策略没调对,跨会话检索准确率就卡死在 62%–68% 区间,误差 ±1.3%。这个数字