NVIDIA GPU 持久化模式到底是什么：和 “llama.cpp” 常驻、频繁 kill 进程、掉卡问题到底有什么关系

张

张建站

2026/4/16 16:11:43

10分钟阅读

NVIDIA GPU 持久化模式到底是什么：和 “llama.cpp” 常驻、频繁 kill 进程、掉卡问题到底有什么关系

关键词NVIDIA、Persistence Mode、nvidia-persistenced、llama.cpp、GPU 初始化、CUDA context、推理服务、Linux一、很多人一开始就把两件事混在了一起在 GPU 推理场景里最容易混淆的其实是这两个概念模型常驻显存GPU 持久化模式它们确实有关联但不是一回事。如果你跑的是llama.cpp、vLLM、SGLang这类在线推理服务经常会看到类似说法模型要常驻显卡最好开启持久化不开持久化GPU 容易出问题频繁kill进程会让卡反复初始化这些话都不算全错但如果不把层次拆开很容易越说越乱。所以这篇文章只做一件事把“进程层的模型驻留”和“驱动层的设备持久化”彻底拆开讲。二、先说结论持久化模式到底是什么最短定义可以这么记Persistence Mode 的作用是让 GPU 在没有用户进程占用时也尽量保持在“已初始化、可快速复用”的状态。它不是帮你把模型自动放进显存帮你保留上一个进程的 CUDA context帮你保留上一个进程的显存内容帮你修复已经发生的硬件掉卡它更像一个驱动层的稳态优化开关。三、最容易理解的三层结构把 GPU 推理粗略分成三层会一下子清楚很多┌────────────────────────────────────────────┐ │ 业务进程层 │ │ llama.cpp / Python / vLLM / SGLang │ │ - 模型是否加载在显存里 │ │ - 进程是否还活着 │ └────────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────────┐ │ 驱动 / 设备状态层 │ │ NVIDIA Driver / nvidia-persistenced │ │ - GPU 是否保持已初始化状态 │ │ - 设备是否需要“更冷”的重新准备 │ └────────────────────────────────────────────┘ ↓ ┌────────────────────────────────────────────┐ │ 硬件层 │ │ GPU 卡 / PCIe / 供电 / 槽位 / riser │ └────────────────────────────────────────────┘这三层分别回答的是不同问题业务进程层模型还在不在显存里驱动层GPU 设备是否保持已初始化、可快速复用硬件层PCIe 链路和卡本体是否稳定四、llama.cpp模型常驻显存和持久化模式是什么关系如果启动的是llama.cpp的llama-server并且它一直没退出那么通常会发生这些事进程启动GPU 初始化模型加载进显存后续请求不断复用同一个服务进程也就是说只要llama.cpp服务一直活着模型常驻显存主要是因为这个业务进程没有退出而不是因为开了持久化。所以“模型常驻显存”这件事本质上是进程层行为。持久化模式只是让驱动层更倾向于把 GPU 保持在已准备好的状态不要在短暂空闲后完全退回更冷的状态。五、那为什么大家总说长期推理服务最好开持久化因为虽然“模型常驻显存”不是由持久化决定的但长期在线推理服务的运行模式确实和持久化模式很匹配。原因在于推理服务往往长期占卡服务会有升级、重启、切换模型的时候同一台服务器上可能有实验进程、脚本、短任务不断进入和退出在这种服务器环境里开启持久化更符合一种稳态思路尽量减少 GPU 在“没人占用”和“重新被占用”之间频繁冷启动。所以更准确的说法不是因为llama.cpp模型常驻显存所以必须开持久化。而是因为llama.cpp往往运行在长期在线、强调稳定性的服务器场景里开启持久化通常更符合这种运行方式。六、如果频繁kill进程再重新启动到底会发生什么这个问题非常关键也是很多人真正想搞明白的地方。假设有过类似以下的操作启动一个推理命令占用 GPU看一会儿结果kill掉进程改参数再次启动新进程那么要分成两种情况看。情况 A不开持久化大体流程会更像新进程启动创建自己的 CUDA context分配显存加载模型进程退出显存释放context 销毁如果这张卡暂时没有别的进程继续占用驱动更容易把设备退回到更冷的状态下一次新进程再来又重新做一轮准备这意味着旧进程的显存不会保留旧进程的 context 不会保留GPU 更容易在空窗期回退到“需要重新准备”的状态情况 B开启持久化流程会变成旧进程退出显存和该进程的 context 仍然会释放但驱动尽量保持 GPU 设备本身处于已初始化、可快速复用状态下一次新进程再来时不是从特别“冷”的状态重新开始所以持久化模式没有保留上一个进程的业务资源它保留的是更底层的设备就绪状态。七、最容易误解的一点持久化并不会保留这些东西这几个点我建议一定要记住。开启持久化后下面这些东西依然不会保留上一个进程的模型权重上一个进程的显存内容上一个进程的 CUDA context上一个进程的 Python / C 用户态对象所以你kill掉llama.cpp进程以后模型还是会从显存里消失新进程起来还是要重新加载模型新进程还是要重新创建自己的 context持久化模式真正减少的是更底层的设备冷启动抖动空窗期后重新接管 GPU 的额外成本八、为什么“不持久化”会让问题更容易暴露这里一定要说得足够准确。不是说不开持久化就一定会掉卡。更准确的说法是如果底层链路、槽位、供电、卡本体本来就存在边缘不稳定那么频繁的初始化 / 释放更容易把问题放大。为什么因为每次新进程重新使用 GPU都可能触发更多的准备动作例如重新建立进程对设备的使用上下文重新申请和释放显存重新进入工作状态重新走一遍驱动与设备的交互路径如果底层本来就有轻微不稳定那么“反复切换状态”本身就可能成为触发器。但要强调这更像“放大器”或“暴露器”而不是根因本身。九、那持久化模式能不能解决Xid 79、掉卡、fallen off the bus不能把它说得太神。持久化模式不能直接修复这些问题PCIe 槽位接触不良riser / backplane 问题供电不稳GPU 卡本体故障已经发生的Xid 79GPU has fallen off the bus如果根因在硬件链路层开启持久化并不会把故障“治好”。它能做的是降低驱动反复初始化带来的抖动降低频繁拉起 / 终止任务时的波动让长期在线服务更符合服务器稳态运行方式所以它更像稳定性优化项而不是硬件故障修复项。十、开启持久化到底有没有代价有但通常不大而且要看场景。1. 可能有轻微的空闲功耗和温度代价因为 GPU 更倾向于保持在已初始化状态而不是彻底退回更冷的状态所以在某些机器、某些驱动版本、某些卡型上可能会看到空闲功耗略高空闲温度略高设备不那么容易进入最深的省电状态这在桌面机、轻载环境里更容易被在意在服务器场景里通常大家更看重稳定性因而更容易接受。2. 驱动卸载和维护时会多一点操作步骤如果开启了持久化尤其还配合nvidia-persistenced那么做一些维护动作时要更小心例如卸载 NVIDIA 驱动模块做某些设备级维护需要完全释放 GPU 进行低层操作因为这时驱动会更倾向于保持设备活着不像完全空闲状态那样“自然释放”。3. 它不会替你省掉模型重载成本这是最常见的误区。很多人以为开了持久化后下次服务重启就不用重新加载模型了显存里的权重能继续留着其实不是。持久化模式不会保留你的模型权重所以进程重启后模型依旧要重新加载大模型装载时间不会凭空消失4. 对“已经长期常驻运行”的服务收益可能没你想象得那么大如果你的llama.cpp服务一跑就是好几天中间几乎不重启那在这段稳定运行期内开不开持久化差别不会像“频繁重启场景”那么明显换句话说持久化模式的收益通常在“任务频繁进入和退出”的边界场景里更显著。十一、什么场景会比较推荐开启下面这些场景一般都建议开Linux GPU 服务器多卡推理节点llama.cpp/vLLM/SGLang长期在线服务经常切换模型、重启服务、跑实验脚本的机器需要尽量减少首次任务抖动的环境十二、什么场景不一定特别在意这些场景里它不是完全没价值但没必要神化桌面开发机偶尔跑一下单次任务的测试机GPU 很少被频繁释放和重建的环境更关心极致省电而不是服务稳态的场景十三、常用操作命令1. 启动持久化服务systemctlenable--nownvidia-persistenced systemctl status nvidia-persistenced --no-pager-l2. 对所有当前可识别 GPU 开启持久化nvidia-smi-pm1如果你担心某张卡有异常也可以逐张开nvidia-smi-i0000:27:00.0-pm1nvidia-smi-i0000:38:00.0-pm13. 验证是否开启成功nvidia-smi-q|grepPersistence Mode4. 关闭持久化nvidia-smi-pm0十四、用一句最好记的话收尾如果只想记住一句最关键的话建议记这句持久化模式保留的不是你的模型和进程而是 GPU 驱动对设备的“热状态”它不能修复硬件掉卡但能减少频繁初始化带来的抖动。再压缩一点就是模型常驻进程层持久化驱动层掉卡先优先排查硬件链路层环境背景Linux GPU 服务器 / NVIDIA Driver 535.x /llama.cpp长期在线推理场景

在复现overlaptranformer论文中，进行库faiss安装的，解决方案。

问题描述：1.我的python版本为3.9.16，numpy版本为1.24.2时：pip install faiss-cpu它默认安装版本是faiss的版本为1.13.0，会默认自动安装numpy的版本为2.0.x版本。但是我环境其他库要求numpy版本要低于这个2.0.x版本。但是又得大于1…...

2026/4/11 18:24:35 阅读更多 →

新网站推广和 SEO 优化的注意事项有哪些

新网站推广和 SEO 优化的注意事项有哪些在当今数字化时代，一个新网站的成功与否在很大程度上取决于其推广和搜索引擎优化（SEO）的策略。无论是一个企业品牌的新网站，还是个人创业者的首站，合理的推广和SEO优化都是至关…...

2026/4/11 18:23:35 阅读更多 →

MySQL 故障排查与优化

MySQL 故障排查与优化一、日常故障排查思路先看服务状态启动失败：查看错误日志 error.log，常见原因端口占用、配置错误、权限不足、磁盘满。无法连接：检查端口 3306、防火墙、bind-address、授权用户主机限制。查看关键日志错误日志&#xff…...

2026/4/11 18:23:36 阅读更多 →

HagiCode Desktop 混合分发架构解析：如何用 PP 加速大文件下载籽

一、Actor 模型：不是并发技巧，而是领域单元 Actor 模型的本质是： Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是： 如何在不共享状…...

2026/4/16 0:30:59 阅读更多 →

从数据采集到回放验证：ADTF 适配 ROS 的 ADAS 测试实践饺

一、简化查询 1. 先看一下查询的例子 /// /// 账户获取服务 /// /// /// public class AccountGetService(AccountTable table, IShadowBuilder builder) {private readonly SqlSource _source new(builder.DataSource);private readonly IParamQuery _accountQuery build…...

2026/4/15 6:20:42 阅读更多 →