TensorRT: ¿funciona más lento que fp32 con precisión de fp16?
TensorRT ejecuta el programa de demostración sample_uff_ssd.exe y descubre que ejecutar con precisión fp16 es más lento que fp32, como se muestra a continuación
El motivo es: Según la información proporcionada por NVIDIA, los modelos que admiten FP16 de velocidad completa prestaciones son: Tesla P100, Quadro GP100 y Jetson TX1/TX2: Tesla P100, Quadro GP100 y Jetson TX1/TX2. Quadro GP100 y Jetson TX1/TX2. GTX 1050, 1060, 1070, 1080, Pascal Titan X, Titan Xp, Tesla P40, etc. no admiten FP16 de velocidad completa, por lo que el uso de la precisión de fp16 en estos modelos es más lento que fp32.
En pocas palabras, el hardware no es compatible con FP16 nativo, es decir, no admite instrucciones nativas de FP16.