# 2026.5 LLaMA Factory 微调模型 使用 llama.cpp 量化 Qwen3.5 模型实操文档
2026.5 LLaMA Factory 微调模型 使用 llama.cpp 量化 Qwen3.5 模型实操文档文档说明适用场景将LLaMA Factory 微调并合并后的 Qwen3.5 模型HuggingFace 格式转换为 llama.cpp 支持的 GGUF 格式并完成量化推理核心问题Qwen3.5 自带 MTP 模块llama.cpp 不兼容转换时需禁用测试环境Linux 系统、llama.cpp 最新版、Qwen3.5 全量合并模型一、前置准备1. 环境要求已安装 Python、PyTorch、git已完成 LLaMA Factory 微调且合并 LoRA 权重得到完整 HF 格式模型模型目录包含model.safetensors、config.json、tokenizer.json等核心文件2. 模型路径本文默认模型路径/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged二、步骤1拉取并编译最新版 llama.cppllama.cpp 需最新版才能支持 Qwen3.5 架构# 进入工作目录cd/mnt/workspace# 克隆 llama.cpp已克隆则跳过gitclone https://github.com/ggerganov/llama.cppcdllama.cpp# 拉取最新代码gitpull# 编译cmake-Bbuild cmake--buildbuild--configRelease三、步骤2HF 格式 → GGUF 格式核心步骤必须添加--no-mtp参数禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错# 回到 llama.cpp 根目录cd/mnt/workspace/llama.cpp# 执行转换命令复制直接运行python convert_hf_to_gguf.py\/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged\--outfileqwen3.5_sft_merged_f16.gguf\--no-mtp\--outtypef16输出文件qwen3.5_sft_merged_f16.ggufFP16 精度基础模型四、步骤3GGUF 模型量化推荐 q4_K_Mq4_K_M 是平衡速度与精度的最优量化方案# 量化命令使用新版 llama-quantize 工具./build/bin/llama-quantize\qwen3.5_sft_merged_f16.gguf\qwen3.5_sft_merged_q4_K_M.gguf\q4_K_M输出文件qwen3.5_sft_merged_q4_K_M.gguf最终量化模型五、步骤4模型推理测试1. 单次指令测试./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\-p你好2. 交互式对话模式./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\--conversation六、核心参数说明参数作用必要性--no-mtp禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错必选--outtype f16输出 FP16 精度 GGUF 模型推荐--chat-template chatml适配 Qwen3.5 官方对话模板必选q4_K_M量化格式平衡速度/精度推荐七、常见报错与解决方案1. 报错missing tensor blk.24.attn_norm.weight原因未禁用 Qwen3.5 MTP 模块解决转换时必须加--no-mtp参数2. 报错failed to open GGUF file原因Linux 路径使用 Windows 反斜杠\或路径错误解决统一使用正斜杠/用ls验证文件存在