LLaMA-Factory 大模型训练/推理最相关的 DCU 特殊包我按优先级给你筛出来https://download.sourcefind.cn:65024/directlink/4/ 第一梯队必须有 DCU 专用版底层含 CUDA/ROCm 二进制包作用不装 DCU 版的后果pytorch/已装 ✅torch 核心已搞定triton/已装/待装 ✅GPU 编译器FlashAttention 和 torch.compile 的根基deepspeed/多卡分布式训练装官方版 NVIDIA CUDA 内核DCU 直接段错误flash_attn/Flash Attention 加速官方版只有 CUDA 核函数DCU 上 import 就崩bitsandbytes/QLoRA 4bit/8bit 量化官方版libbitsandbytes_cuda*.so是纯 CUDA 二进制DCU 无法加载xformers/内存高效的注意力/优化器底层 CUDA kernelDCU 需要重编译版 第二梯队强烈建议找 DCU 版性能相关包作用说明torchvision/图像预处理、模型已随 torch 一起用需要dtk2404对应版本torchaudio/音频处理同上版本要匹配 torch 2.1.0apex/混合精度、梯度缩放NVIDIA 的优化库DCU 有移植版transformer_engine/FP8 训练H100/DCU 新一代如果做 FP8 量化训练需要 第三梯队纯 Python / 通用 CPyPI 官方版可用这些不需要去 sourcefind.cn 下直接pip install即可包为什么不需要 DCU 版transformers,datasets,accelerate,peft纯 Python 上层封装sentencepiece,protobuf,tiktoken文本 tokenizerC 但无 GPU 代码gradio,fastapi,uvicornWeb UI / API纯 Pythonnumpy,scipy,pandas,matplotlib科学计算CPU 版即可diffusers/HuggingFace 扩散模型纯 Python底层调 torchcolossalai/虽然含底层但主要逻辑在 Python可试 PyPI 版vllm/,sglang/,lmdeploy/推理框架注意这几个底层重度依赖 CUDA/ROCm如果 PyPI 版不支持 DCU必须从 sourcefind.cn 下⚠️ 特别注意推理框架vLLM / SGLang / LMDeployvllm/、sglang/、lmdeploy/这三个是大模型推理服务的核心PyPI 官方版 vLLM目前只支持 NVIDIA CUDA对 ROCm/DCU 支持很弱或没有海光 sourcefind.cn 的版本应该是基于 ROCm 移植的 DCU 可用版如果你后续要部署推理服务不是训练这三个必须从sourcefind.cn下载 DCU 版。 LLaMA-Factory 最小依赖清单DCU 版按这个顺序去sourcefind.cn下载manylinux2014后缀的# 1. torchvision匹配 torch 2.1.0wgethttps://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.1.1/torchvision-0.16.0xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 2. torchaudio可选LLaMA-Factory 主要用不上# wget .../torchaudio/...# 3. deepspeed多卡必需wgethttps://download.sourcefind.cn:65024/directlink/4/deepspeed/deepspeed-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 4. flash_attn训练加速强烈推荐wgethttps://download.sourcefind.cn:65024/directlink/4/flash_attn/flash_attn-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 5. bitsandbytesQLoRA 量化必需wgethttps://download.sourcefind.cn:65024/directlink/4/bitsandbytes/bitsandbytes-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl一句话策略凡是有.so/ CUDA kernel / GPU 二进制 的包必须从 sourcefind.cn 下 DCU 版纯 Python 的上层库直接 pip 装官方版。你现在最需要补的是torchvision配套 torch 2.1.0、deepspeed、flash_attn、bitsandbytes这四个。先去这几个目录里翻manylinux2014的包找到后按之前的规则重命名第二个改.-改.再安装。