别只装TensorRT！用tar包安装后，手把手带你跑通第一个PyTorch模型推理Demo

张开发

• 2026/5/30 11:29:07 • 15 分钟阅读

分享文章

别只装TensorRT！用tar包安装后，手把手带你跑通第一个PyTorch模型推理Demo

从PyTorch到TensorRT手把手实现模型推理加速全流程刚装好TensorRT却不知道如何验证它的加速效果本文将带你完整走通PyTorch模型从导出到TensorRT加速的全流程。不同于简单的安装教程我们聚焦于实际应用场景通过一个ResNet18分类模型的案例演示如何利用TensorRT实现3-5倍的推理速度提升。1. 环境准备与工具链配置在开始之前确保你的开发环境满足以下条件Ubuntu 18.04/20.04 LTS本文以20.04为例NVIDIA驱动≥470版本CUDA 11.3和cuDNN 8.2.1Python 3.8虚拟环境PyTorch 1.10.0和torchvision 0.11.1提示使用conda管理Python环境可以避免依赖冲突conda create -n tensorrt_demo python3.8 conda activate tensorrt_demo安装必要的Python包pip install torch1.10.0 torchvision0.11.1 tensorrt pycuda onnx onnxruntime验证TensorRT是否被正确识别import tensorrt as trt print(trt.__version__) # 应输出类似8.2.1.8的版本号2. 构建并导出PyTorch模型我们从构建一个简单的ResNet18分类模型开始。虽然ResNet18本身不算复杂但它的结构包含了CNN的典型组件卷积、BN、ReLU等非常适合演示优化过程。模型定义与训练简化版import torch import torchvision.models as models # 加载预训练模型 model models.resnet18(pretrainedTrue) model.eval() # 示例输入 dummy_input torch.randn(1, 3, 224, 224) # 导出为ONNX格式 torch.onnx.export( model, dummy_input, resnet18.onnx, input_names[input], output_names[output], dynamic_axes{ input: {0: batch_size}, output: {0: batch_size} } )关键参数说明参数作用推荐值dynamic_axes允许输入输出batch维度动态变化建议至少支持动态batchopset_versionONNX算子集版本11或更高do_constant_folding是否优化常量True常见问题如果遇到Unsupported: ONNX export of operator for training mode错误确保模型处于eval模式model.eval()3. ONNX模型转换与TensorRT优化获得ONNX模型后我们需要通过TensorRT的优化器生成优化后的引擎。这个过程中TensorRT会执行多种优化层融合合并连续的卷积、BN和激活层精度校准FP16或INT8量化内核自动调优选择最适合当前硬件的计算内核转换代码示例import tensorrt as trt logger trt.Logger(trt.Logger.WARNING) builder trt.Builder(logger) network builder.create_network(1 int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)) parser trt.OnnxParser(network, logger) with open(resnet18.onnx, rb) as f: if not parser.parse(f.read()): for error in range(parser.num_errors): print(parser.get_error(error)) config builder.create_builder_config() config.set_flag(trt.BuilderFlag.FP16) # 启用FP16加速 config.max_workspace_size 1 30 # 1GB工作空间 serialized_engine builder.build_serialized_network(network, config) with open(resnet18.engine, wb) as f: f.write(serialized_engine)优化选项对比优化级别速度提升精度损失适用场景FP32基准无最高精度要求FP161.5-3x轻微大多数应用INT83-5x明显对延迟敏感场景4. 性能对比与结果分析现在我们来对比原始PyTorch模型和TensorRT优化版本的性能差异。我们使用相同的输入数据分别测试端到端延迟包括数据拷贝时间纯计算时间仅模型推理时间吞吐量固定时间内能处理的样本数测试代码关键片段# TensorRT推理上下文 runtime trt.Runtime(logger) with open(resnet18.engine, rb) as f: engine runtime.deserialize_cuda_engine(f.read()) context engine.create_execution_context() # 分配显存 inputs, outputs, bindings [], [], [] for binding in engine: size trt.volume(engine.get_binding_shape(binding)) * engine.max_batch_size dtype trt.nptype(engine.get_binding_dtype(binding)) # 分配输入输出缓冲区 mem cuda.mem_alloc(size * dtype.itemsize) bindings.append(int(mem)) if engine.binding_is_input(binding): inputs.append(mem) else: outputs.append(mem) # 执行推理 cuda.memcpy_htod(inputs[0], input_data) context.execute_v2(bindingsbindings) cuda.memcpy_dtoh(output_data, outputs[0])实测性能数据NVIDIA T4 GPU指标PyTorchTensorRT-FP32TensorRT-FP16延迟(ms)15.29.85.3吞吐量(qps)65102189GPU显存(MB)1245893562从数据可以看出即使是FP32精度TensorRT也能带来35%的速度提升。而启用FP16后速度提升达到3倍以上同时显存占用减少55%。5. 高级优化技巧与实战建议5.1 动态形状支持实际应用中输入尺寸往往不是固定的。TensorRT支持通过以下方式定义动态形状profile builder.create_optimization_profile() profile.set_shape( input, # 输入名称 (1, 3, 224, 224), # 最小形状 (8, 3, 224, 224), # 最优形状 (32, 3, 224, 224) # 最大形状 ) config.add_optimization_profile(profile)5.2 INT8量化对于极致性能需求可以考虑INT8量化config.set_flag(trt.BuilderFlag.INT8) # 需要提供校准数据 def calibrate(): # 返回校准数据生成器 for _ in range(100): yield [np.random.randn(1, 3, 224, 224).astype(np.float32)] config.int8_calibrator trt.EntropyCalibrator2(calibrate())5.3 调试技巧当遇到转换错误时可以尝试使用trtexec命令行工具检查ONNX模型/usr/src/tensorrt/bin/trtexec --onnxresnet18.onnx --verbose简化模型结构逐步排查问题层检查ONNX算子支持情况for i in range(trt.get_plugin_registry().num_plugins): print(trt.get_plugin_registry().get_plugin_creator(i).name)在真实项目中第一次成功转换TensorRT引擎后建议建立自动化测试流程。我通常会创建一个包含以下步骤的CI/CD流水线模型训练完成后自动导出ONNX触发TensorRT转换任务运行精度验证测试性能基准测试生成对比报告这种端到端的自动化流程可以确保每次模型更新都能获得最优的推理性能。

更多文章

前端开发 2026/5/30 11:27:05

如何3分钟搞定Steam游戏清单下载？Onekey终极指南帮你轻松管理游戏文件

如何3分钟搞定Steam游戏清单下载？Onekey终极指南帮你轻松管理游戏文件【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey 你是否曾为备份Steam游戏而烦恼？想要整理数百款游戏…

从零开始构建水下机器人仿真环境：UUV Simulator实战指南【免费下载链接】uuv_simulator Gazebo/ROS packages for underwater robotics simulation 项目地址: https://gitcode.com/gh_mirrors/uu/uuv_simulator UUV Simulator是一个基于Gazebo和ROS的开源水…

张开发

前端开发 2026/5/12 6:53:49

【Docker工业部署调试黄金法则】：20年运维专家亲授5大避坑指南与实时排障SOP

第一章：Docker工业部署调试的认知升维与体系定位在企业级容器化落地过程中，Docker远不止是“运行一个镜像”的轻量工具——它是连接开发、测试、运维与安全团队的协同契约，是基础设施语义化表达的中枢载体。工业级部署调试的本质，…

张开发

别只装TensorRT！用tar包安装后，手把手带你跑通第一个PyTorch模型推理Demo

最新文章

Java Loom响应式迁移全链路拆解（从线程模型颠覆到Project Loom生产就绪）

从开发到分发：手把手教你用Inno Setup为Qt应用制作专业安装包（附脚本自定义技巧）

告别‘Hello World’就卡住：保姆级Android Studio安装与环境变量配置（Win/Mac通用）

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

从老式工控机到树莓派：一文理清RS-232、RS-485和TTL电平的‘前世今生’与适用场景

Vitis自定义IP编译过了，Debug却卡在QEMU文件缺失？一个手动创建空文件的“土办法”救了我

推荐文章

相关文章

分享文章

更多文章

如何3分钟搞定Steam游戏清单下载？Onekey终极指南帮你轻松管理游戏文件

从‘段落缩进’到‘首行缩进’：深入理解wangEditor菜单扩展机制与CSS样式控制

从AMP到SMP：手把手教你将ZedBoard上的VxWorks6.9项目升级为多核模式

Phi-3-mini-4k-instruct快速体验：用Ollama搭建个人AI写作助手

m4s-converter深度技术解析：从缓存碎片到完整视频的技术蜕变

LVGL图像显示性能优化实战：如何根据你的MCU和屏幕，选择最省内存的图片格式（CF_INDEXED vs CF_ALPHA）

AI 任务调度器频繁超时：一次从线程争用到执行隔离的工程复盘

3步制作专业透明视频：AI背景去除终极指南

GPEN效果边界再定义：非正面人脸（俯仰角＞30°）修复能力实测报告

如何一键永久保存QQ空间全部说说？GetQzonehistory终极备份指南

从零开始构建水下机器人仿真环境：UUV Simulator实战指南

【Docker工业部署调试黄金法则】：20年运维专家亲授5大避坑指南与实时排障SOP