TensorRT是Nvidia为了加速基于自家GPU训练模型的推理而设计的,当我们将模型训练好后,TensorRT可以直接对模型进行网络层的一一对应,从而加速比较大模型的推理部署。最近使用TensorRT加速了一些模型,我将用两篇文章对使用过程和其中遇到的坑进行记录说明。本篇文章将对通用模型的TensorRT转换进行一个记录,对transformer类模型的转换我们将在下一篇文章进行记录。本文记录的安装基于TensorRT6.0。1、TensorRT的安装1.1官网下载安装包 首先,我们可以到nvidia官网的tensor