0%

TensorRT成功测试自己的数据集SSD模型四

经过之前一系列的工作,进坑出坑的尝试,总算是把测试结果搞出来了,所以在此总结。并结合之前一些在google colab上的测试对比,将实际数据公布出来以供大家参考。

TensorRT成功测试自己的数据集SSD模型一

TensorRT成功测试自己的数据集SSD模型二

TensorRT成功测试自己的数据集SSD模型三

TensorRT成功测试自己的数据集SSD模型四

检测结果

                                                                                                                                                                                                                                                                                                                       
单张推理结果
3类目标,训练样本219张,训练代数50K
No tensorrt infer GTX 1070 Ti
With tensorrt infer GTX 1070 Ti
precision
time
precision
time
half
float
half
float
21.9ms 5ms 5ms
21.87ms 7ms 5ms
21.75ms 6ms 5ms
21.72ms 5ms 6ms
5类目标,训练样本1006张,训练代数200K
No tensorrt infer GTX 1070 Ti
With tensorrt infer GTX 1070 Ti
precision
time
precision
time
half
float
half
float
21.86ms 6ms 5ms
21.7ms 5ms 6ms
21.48ms 5ms 5ms
21.85ms 5ms 5ms
结论:1. 无论从推测用时还是检测精度来看,tensorrt下选择精度为16或32的检测结果都基本无差;2. 用了tensorrt后的推理时长相比不用的时候能够提升4倍左右;3. 用了tensorrt后的预测精度相比不用的时候有所提升
批量推理结果
Image size(8k×40k), 预测裁剪小图size(300×300),w方向:8000/300=26,h方向:40000/300= 133,裁剪生成的小图有:26×133 = 3458张
No tensorrt infer GTX 1070 Ti
With tensorrt infer GTX 1070 Ti
infer_batch_size = 70
infer_batch_size = 13
1.0401s
26.68ms
total_time
total_time
52.0058s
7.097s
With tensorrt infer GTX 1070 Ti
infer_batch_size = 26
47.47ms
total_time
6.314s
With tensorrt infer GTX 1070 Ti
infer_batch_size = 38
65.076ms
total_time
5.922s
With tensorrt infer GTX 1070 Ti
infer_batch_size = 70
117.3ms
total_time
5.865s
结论: 1. 用了tensorrt后的推理时长相比不用的时候能够提升8-10倍左右;2. 一直到batch_size = 70GPU未饱和,并且最大利用率到70%左右,仍有剩余