LLMStatusCode【免费下载链接】hixlHIXLHuawei Xfer Library是一个灵活、高效的昇腾单边通信库面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixlLLMException中status_code对应的枚举类枚举值及解决方法如下表。枚举值含义是否可恢复解决办法LLM_SUCCESS成功无无LLM_FAILED通用失败否重启机器或容器。保留现场获取Host/Device日志并备份。LLM_PARAM_INVALID参数错误是基于日志排查错误原因。LLM_KV_CACHE_NOT_EXISTKV不存在是- 检查对应全量侧报错日志中的请求是否完成。- 检查是否存在重复拉取。- 检查标记目标cache的参数是否错误。LLM_REPEAT_REQUEST重复请求是检查是否存在重复调用。LLM_NOT_YET_LINK没有建链是上层排查Decode与Prompt建链情况。LLM_ALREADY_LINK已经建过链是上层排查Decode与Prompt建链情况。LLM_LINK_FAILED建链失败是link_clusters第二个返回值中有该错误码时需要检查对应集群之间的网络连接。LLM_UNLINK_FAILED断链失败是unlink_clusters第二个返回值中有该错误码时需要检查对应集群之间的网络连接。LLM_NOTIFY_PROMPT_UNLINK_FAILED通知Prompt侧断链失败是1. 排查Decode与Prompt之间的网络连接。2. 主动调Prompt侧的unlink_clusters清理残留资源。LLM_CLUSTER_NUM_EXCEED_LIMIT集群数量超过限制。是排查link_clusters和unlink_clusters传入参数clusters数量不能超过16。LLM_PROCESSING_LINK正在处理建链是当前正在执行建链或断链操作请稍后再试。LLM_PREFIX_ALREADY_EXIST前缀已经存在是检查是否已加载过相同Prefix Id的公共前缀。如果是需要先释放。LLM_PREFIX_NOT_EXIST前缀不存在是检查Request中的Prefix Id是否已加载过。LLM_EXIST_LINKswitch_role时存在未释放的链接。是检查在切换当前LLMDataDist的角色前是否已经调用unlink_clusters断开所有的链接。LLM_FEATURE_NOT_ENABLED特性未使能是检查初始化LLMDataDist时是否传入了必要option。如果是切换当前LLMDataDist的角色时抛出该异常排查初始化时LLMConfig是否设置了enable_switch_role True。LLM_TIMEOUT处理超时是- 如果是pull_cache、pull_blocks、transfer_cache_async等传输相关接口报错该链路不可恢复需重新建链。- 其他接口报该异常加大超时时间并重试。LLM_LINK_BUSY链路繁忙是检查同时调用的接口是否有冲突例如同时调用如下接口时会报该错误码。同时调用unlink和pull_cache。使用相同链路同时调用pull_cache和transfer_cache_async。LLM_OUT_OF_MEMORY内存不足是检查内存池是否足够容纳申请的KV大小。检查申请的内存是否没有释放。LLM_DEVICE_MEM_ERROR出现内存UCEincorrect error指系统硬件不能直接处理恢复内存错误的错误虚拟地址是获取并修复内存UCE的错误虚拟地址。如果是KV Cache内存需要再调用cache manager的remap_registered_memory接口修复注册给网卡的KV Cache内存。说明 本错误码为预留暂不支持。LLM_SUSPECT_REMOTE_ERROR疑似是UCE内存故障否上层框架需要结合其它故障进行综合判断是UCE内存故障还是他故障。LLM_UNKNOWN_ERROR未知错误否保留现场获取Host/Device日志并备份。请参考PyTorch的torch_npu.npu.restart_device接口的说明获取并修复内存UCE的错误虚拟地址。【免费下载链接】hixlHIXLHuawei Xfer Library是一个灵活、高效的昇腾单边通信库面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考