大模型部署为什么这么“重”模型量化用“精度”换“容量”知识蒸馏让“小模型”模仿“大模型”剪枝与稀疏删除“没用”的神经元架构优化从设计层面“减负”