Red de conocimiento informático - Problemas con los teléfonos móviles - La diferencia entre retnet y atención lineal

La diferencia entre retnet y atención lineal

Diferentes estructuras; diferente complejidad computacional, etc.

Diferentes estructuras: RetNet utiliza una estructura de bloques residuales para evitar la desaparición de gradientes y problemas de cuellos de botella en la representación mediante la introducción de conexiones de salto. LinearAttention suele ser una transformación lineal sin conexiones residuales.

Diferente complejidad computacional: debido a la introducción del bloque residual, la complejidad computacional de RetNet es relativamente alta. LinearAttention solo implica una operación de transformación lineal, por lo que la complejidad computacional es relativamente baja.