¿Cuánta profundidad de programación de GPU requiere el aprendizaje profundo?
Significa que el rendimiento es más potente. Porque cuanto mayor es la memoria de video, mayor es el tamaño del lote y el núcleo CUDA puede funcionar más cerca de su capacidad total.
Una memoria de video más grande puede usar un tamaño de lote proporcionalmente mayor. Esto se infiere: una GPU con 24 GB de memoria de video puede usar 3 veces el tamaño de lote en comparación con una GPU con 8 GB de memoria de video.
Para secuencias largas, la huella de memoria del modelo de lenguaje aumenta desproporcionadamente porque la atención es cuadrática en la longitud de la secuencia.
Con estos conocimientos, podemos elegir felizmente una GPU:
RTX 2060 (6 GB): si desea explorar el aprendizaje profundo en su tiempo libre.
RTX 2070 o 2080 (8 GB): si quieres tomarte en serio el aprendizaje profundo pero solo tienes entre $600 y $800 para gastar en una GPU. Se pueden aplicar 8G de memoria de video a la mayoría de los modelos convencionales de aprendizaje profundo.
RTX 2080Ti (11GB): Si quieres estudiar seriamente el aprendizaje profundo, tu presupuesto para una GPU puede llegar a los 1.200 dólares. El RTX 2080Ti es aproximadamente 40 veces más rápido que el RTX 2080 en entrenamiento de aprendizaje profundo.
Titan RTX y Quadro RTX 6000 (24GB): Si estudias a menudo modelos SOTA pero no eres lo suficientemente rico como para comprarte una RTX 8000, puedes elegir estas dos tarjetas gráficas.
Quadro RTX 8000 (48 GB): Felicitaciones, su inversión está preparada para el futuro y su investigación puede incluso convertirse en el nuevo SOTA en 2020.