从模型到服务——Llama 3在TensorRT-LLM上的部署,是LLM推理工程师的"毕业设计"前言前面四篇文章覆盖了TRT-LLM的各个子系统:KV Cache管理、In-flight Batching、量化。现在是时候把它们串成一条完整的链路了。本节以Meta的Llama 3 8B和Llama 3 70B为例,完成从HuggingFace模型到生产级推理服务的完整部署。你会看到:模型下载与转换、TRT引擎构建与调优、Python服务API、以及生产级的流式输出(streaming)实现。一、Llama 3 模型准备与转换1.1 获取模型# 从HuggingFace下载(需要申请访问权限)huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct\--local-dir ./models/Llama-3-8B-Instruct# 或使用ModelScope(国内更快)pip