La diferencia entre retnet y atención lineal
Diferentes estructuras; diferente complejidad computacional, etc.
Diferentes estructuras: RetNet utiliza una estructura de bloques residuales para evitar la desaparición de gradientes y problemas de cuellos de botella en la representación mediante la introducción de conexiones de salto. LinearAttention suele ser una transformación lineal sin conexiones residuales.
Diferente complejidad computacional: debido a la introducción del bloque residual, la complejidad computacional de RetNet es relativamente alta. LinearAttention solo implica una operación de transformación lineal, por lo que la complejidad computacional es relativamente baja.