¿Qué es la red a largo plazo?
Las redes de largo plazo, comúnmente conocidas como LSTM, son un tipo especial de RNN que puede aprender información de dependencia a largo plazo. No existe una diferencia estructural particularmente grande entre LSTM y RNN de referencia, pero utilizan diferentes funciones para calcular el estado oculto. La "memoria" de LSTM se llama celdas/celdas. Puede considerarlas directamente como cuadros negros. La entrada de este cuadro negro es el estado anterior ht?1 y la entrada actual xt. Estas "células" decidirán qué información y estados anteriores deben retenerse/recordarse, y cuáles deben borrarse. En aplicaciones reales, se ha descubierto que este método puede guardar eficazmente información relacionada hace mucho tiempo. LSTM fue propuesto por Hochreiter y Schmidhuber (1997) y recientemente fue mejorado y popularizado por Alex Graves. LSTM ha logrado un éxito considerable en muchos problemas y se utiliza ampliamente. LSTM evita problemas de dependencia a largo plazo mediante un diseño deliberado. Recordar información a largo plazo es en la práctica el comportamiento predeterminado de los LSTM, en lugar de una capacidad que tiene un gran costo. Todos los RNN tienen la forma de una cadena de módulos de red neuronal repetidos. En un RNN estándar, este módulo repetido tiene solo una estructura muy simple, como una capa tanh.
El módulo repetido en un RNN estándar contiene un LSTM de una sola capa que tiene la misma estructura, pero el módulo repetido tiene una estructura diferente. En lugar de una única capa de red neuronal, hay cuatro que interactúan de una manera muy específica.
El módulo repetitivo en LSTM consta de cuatro capas interactivas. No se preocupe por los detalles aquí. Analizaremos el gráfico de análisis de LSTM paso a paso. Ahora, familiaricémonos con los iconos de los distintos elementos utilizados en el diagrama.
Iconos en LSTM En la ilustración anterior, cada línea negra lleva un vector completo desde la salida de un nodo hasta la entrada de otros nodos. El círculo rosa representa operaciones puntuales, como la suma de vectores, y la matriz amarilla es la capa de red neuronal aprendida. Las líneas que se unen representan la conexión de los vectores y las líneas que se separan representan el contenido que se copia y luego se distribuye en diferentes ubicaciones. 4. La idea central de LSTM La clave de LSTM es el estado de la celda y la línea horizontal atraviesa la parte superior del gráfico. El estado celular se asemeja a una cinta transportadora. Opera directamente en toda la cadena, con solo unas pocas interacciones lineales pequeñas. Sería fácil que la información fluyera y permaneciera igual.