Red de conocimiento informático - Problemas con los teléfonos móviles - Introducción a RNN y LSTM

Introducción a RNN y LSTM

A veces cuesta entender una frase tomada sola, pero colocada en un artículo completo, nos resulta más fácil entenderla a través del contexto.

¿Qué es la comprensión del contexto de contacto? Es combinar la información anterior con la declaración actual. Esta también es la clave de RNN.

A la izquierda hay una estructura de red neuronal recurrente. Amplíela y obtendrá una estructura de secuencia. La última salida se utilizará como la siguiente entrada (es decir, la entrada anterior afectará la entrada posterior). .

Esta característica de la cadena revela que RNN está esencialmente relacionado con secuencias y, por lo tanto, es muy adecuado para procesar voz, texto y este tipo de datos de secuencia.

El punto clave de RNN es poder conectar información previa con la tarea actual, como inferir el significado de la declaración actual a través del texto anterior. Sin embargo, cuando la distancia entre la información relevante y la oración actual es demasiado grande, RNN tendrá dificultades para aprender información a larga distancia.

LSTM es un tipo especial de RNN. A través de un diseño exquisito (la red residual profunda en CNN es similar), se resuelven los problemas de desaparición y explosión de gradiente durante el entrenamiento de secuencia larga (es decir, el problema de la pérdida de información causada por la transmisión a larga distancia).

El RNN estándar consta de módulos de redes neuronales simples expandidos en cadenas en secuencia temporal. Este módulo repetitivo suele tener una estructura simple y única, como una capa tanh. Este método de superposición de memoria parece simple y tosco.

LSTM tiene una estructura interna relativamente compleja. El estado cerrado se puede utilizar para seleccionar y ajustar la información transmitida, recordar información que requiere memoria a largo plazo y olvidar información sin importancia.

La clave de LSTM es agregar una correa de transmisión de información que recorre la cadena, llamada estado celular.

LSTM agrega y elimina información sobre el estado de la celda diseñando cuidadosamente la estructura de la puerta.

Una puerta es un método para pasar información de forma selectiva. Contiene una capa de red neuronal sigmoidea y una operación de multiplicación puntual.

La capa Sigmoide genera un valor entre 0 y 1, que describe cuánto de cada parte puede pasar.

0 significa "no se permite pasar ninguna cantidad", 1 significa "se permite pasar cualquier cantidad".

LSTM mantiene la información sobre el estado de la celda a través de tres estructuras de puerta.