# 2026.5 LLaMA Factory 微调模型使用 llama.cpp 量化 Qwen3.5 模型实操文档

张

张建站

2026/5/23 21:05:29

10分钟阅读

2026.5 LLaMA Factory 微调模型使用 llama.cpp 量化 Qwen3.5 模型实操文档文档说明适用场景将LLaMA Factory 微调并合并后的 Qwen3.5 模型HuggingFace 格式转换为 llama.cpp 支持的 GGUF 格式并完成量化推理核心问题Qwen3.5 自带 MTP 模块llama.cpp 不兼容转换时需禁用测试环境Linux 系统、llama.cpp 最新版、Qwen3.5 全量合并模型一、前置准备1. 环境要求已安装 Python、PyTorch、git已完成 LLaMA Factory 微调且合并 LoRA 权重得到完整 HF 格式模型模型目录包含model.safetensors、config.json、tokenizer.json等核心文件2. 模型路径本文默认模型路径/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged二、步骤1拉取并编译最新版 llama.cppllama.cpp 需最新版才能支持 Qwen3.5 架构# 进入工作目录cd/mnt/workspace# 克隆 llama.cpp已克隆则跳过gitclone https://github.com/ggerganov/llama.cppcdllama.cpp# 拉取最新代码gitpull# 编译cmake-Bbuild cmake--buildbuild--configRelease三、步骤2HF 格式 → GGUF 格式核心步骤必须添加--no-mtp参数禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错# 回到 llama.cpp 根目录cd/mnt/workspace/llama.cpp# 执行转换命令复制直接运行python convert_hf_to_gguf.py\/mnt/workspace/LLaMA-Factory/saves/merge/qwen3.5_sft_merged\--outfileqwen3.5_sft_merged_f16.gguf\--no-mtp\--outtypef16输出文件qwen3.5_sft_merged_f16.ggufFP16 精度基础模型四、步骤3GGUF 模型量化推荐 q4_K_Mq4_K_M 是平衡速度与精度的最优量化方案# 量化命令使用新版 llama-quantize 工具./build/bin/llama-quantize\qwen3.5_sft_merged_f16.gguf\qwen3.5_sft_merged_q4_K_M.gguf\q4_K_M输出文件qwen3.5_sft_merged_q4_K_M.gguf最终量化模型五、步骤4模型推理测试1. 单次指令测试./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\-p你好2. 交互式对话模式./build/bin/llama-cli\--model/mnt/workspace/llama.cpp/qwen3.5_sft_merged_q4_K_M.gguf\--chat-template chatml\--conversation六、核心参数说明参数作用必要性--no-mtp禁用 Qwen3.5 专属 MTP 模块解决张量缺失报错必选--outtype f16输出 FP16 精度 GGUF 模型推荐--chat-template chatml适配 Qwen3.5 官方对话模板必选q4_K_M量化格式平衡速度/精度推荐七、常见报错与解决方案1. 报错missing tensor blk.24.attn_norm.weight原因未禁用 Qwen3.5 MTP 模块解决转换时必须加--no-mtp参数2. 报错failed to open GGUF file原因Linux 路径使用 Windows 反斜杠\或路径错误解决统一使用正斜杠/用ls验证文件存在

Python自动化办公：批量处理Word文档的实用技巧

Python自动化办公：批量处理Word文档的实用技巧在日常办公中，处理大量Word文档是常见任务，比如批量修改格式、提取内容或生成报告。手动操作不仅耗时，还容易出错。本文将介绍如何使用Python自动化处理Word文档，通过代码…...

2026/5/23 21:03:48 阅读更多 →

开源火箭设计仿真工具：从零开始构建稳定可靠的模型火箭

开源火箭设计仿真工具：从零开始构建稳定可靠的模型火箭【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket 你是否曾经设计过模型火箭，…...

2026/5/23 21:03:36 阅读更多 →

洛雪音乐音源：打破音乐平台壁垒的聚合解决方案

洛雪音乐音源：打破音乐平台壁垒的聚合解决方案【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 你是否曾经为了听一首歌而在多个音乐平台之间来回切换？或者因为某个平台没有…...

2026/5/23 21:02:13 阅读更多 →

在Taotoken模型广场中根据场景选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据场景选择合适的模型面对众多大模型厂商和琳琅满目的模型，开发者常常面临选择困难&#xff1…...

2026/5/22 17:26:41 阅读更多 →

Agent 一接流式 API 就开始响应断层：从 Delta Parsing 到 Final Assembly 的工程实战

很多开发者以为 Agent 接入流式 API 只是"开个 SSE 连接、逐字渲染"这么简单。直到生产环境报错：用户的话说到一半突然断层，工具参数在流中被截成两半，多轮对话上下句粘在一起。这些问题不是网络抖动，而是 Delta 解析和…...

2026/5/21 11:19:54 阅读更多 →

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案【免费下载链接】esp-sr Speech recognition 项目地址: https://gitcode.com/gh_mirrors/es/esp-sr ESP-SR是乐鑫推出的高性能嵌入式语音识别框架，专为资源受限的物联网设备设计…...

2026/5/22 17:51:20 阅读更多 →