tesla P100显卡使用体验AI部署小结

张

张建站

2026/5/28 1:10:03

10分钟阅读

P100显卡使用体验AI部署小结转发网友的用户体验入手多张P100显卡用于本地AI部署这款卡属于帕斯卡架构初代AI卡也是该架构里唯一搭载FP16单元的型号游戏表现并不理想FP32性能相比1080Ti低16%借道输出还会进一步损耗性能基本不适合玩游戏。但它跑AI任务实用性很强虽架构偏老旧FP16算力和2080持平运行大语言模型完全够用相关实测情况如下双卡部署使用LM Studio流水线做多卡部署运行Qwen3 14B FP16模型推理速度可达16词/秒单卡部署单卡运行Q6_K_M量化版模型部分参数载入内存推理速度约15词/秒MOE模型受内存加载影响较小待测试模型理论上可运行Qwen3 30B A3B INT8版本暂未实测。P100 与 P40 对比两款显卡各有优劣适配场景不同P100支持FP16、无原生INT8P40支持INT8、无原生FP16拥有24GB大显存显存优势突出。模型精度决定实际算力表现若显卡精度与模型不匹配会自动切换更高精度运行推理速度会有所下降。目前已用双卡流水线部署沐雪Qwen3 14B FP16模型并接入QQ整体响应速度流畅主要用于社群娱乐使用。如图双卡流水线部署沐雪qwen3 14b fp16感谢沐雪项目组调出如此萌的模型~下面把P100 / P40 / V100 / RTX 4090的发布/上市时间、大致出厂年份、架构与工艺一次性说清楚都用北京时间/公版正式发布为准1. Tesla P100Pascal16nm发布2016-04-05GTC 2016正式上市2016-06-20 起PCIe 版主要出厂年份2016–2017定位初代 Pascal 数据中心卡唯一带原生 FP16的 Pascal 卡。2. Tesla P40Pascal16nm发布2016-09-13GTC China正式上市2016-10 起主要出厂年份2016–2017定位推理卡INT8 强、FP16 极弱24GB GDDR5。3. Tesla V100Volta12nm发布2017-05-10GTC 2017正式上市2017 年中DGX-1 先上之后 PCIe/SXM2主要出厂年份2017–2019定位第一代带 Tensor Core的数据中心卡FP16 训练/推理王者。4. RTX 4090Ada Lovelace4N/5nm发布2022-09-20GTC 2022正式上市2022-10-12主要出厂年份2022–2024定位消费旗舰第四代 Tensor CoreFP16 峰值算力远超 V100。一眼看懂时间线2016P1004月→ P409月2017V1005月2022RTX 40909/10月P100 P40 v100 4090 FP16下面的的基准算力和峰值算力先给结论单位都是TFLOPSFP16 基准算力纯 CUDA Core无 Tensor CoreP10018.721.2PCIe≈18.7SXM2≈21.2P40≈0.184基本无FP16加速靠FP32模拟V100≈2830不用Tensor Core时RTX 4090≈82.6纯CUDA Core非Tensor Core模式FP16 峰值算力含 Tensor Core 加速P10021.2本身就没有Tensor Core基准峰值P400.184无Tensor Core且FP16极弱V100112125PCIe≈112SXM2≈125RTX 4090165166开启Tensor Core简要说明帮你和你前面的使用感受对上P100Pascal里唯一有原生FP1621.2 TFLOPS和**2080≈2023 TFLOPS**差不多所以你跑Qwen3 14B FP16很合适。P40FP16极弱只有0.184 TFLOPS强项是INT8≈47 TOPS24GB显存适合INT8推理不适合FP16训练/大模型FP16推理。V100Volta第一代Tensor CoreFP16峰值125T远强于P100但老、贵、显存只有16/32GB。4090消费卡FP16 Tensor Core165T比V100还高24GB显存LLM推理现在最香但不是数据中心卡ECC/长期稳定性不如Tesla系列。