该研报主要介绍了TensorRT和Triton在AI模型推理部署中的应用。TensorRT是一个优化和部署神经网络的库,可以最大化延迟关键应用的吞吐量,支持INT8和FP16优化,可以优化包括CNN、RNN和Transformer在内的各种网络,并支持ONNX和TensorRT的原生集成。Triton是一个容器化的推理服务器,可以运行多个模型。蚂蚁在Triton上进行了创新,并在重要场景下应用了Triton。未来,Triton将在蚂蚁的推理中发挥重要作用。