Red de conocimiento informático - Descarga de software - ¿Cuál es la historia de las redes neuronales?

¿Cuál es la historia de las redes neuronales?

Warren McCulloch y Walter Pitts (1943) crearon un modelo computacional de redes neuronales basado en las matemáticas y un algoritmo llamado lógica de umbral. Este modelo divide la investigación sobre redes neuronales en dos ideas de investigación diferentes. Uno se centra principalmente en los procesos biológicos del cerebro y el otro en la aplicación de redes neuronales en la inteligencia artificial.

1. Aprendizaje hebbiano

A finales de la década de 1940, el psicólogo Donald Hebb creó una hipótesis del aprendizaje basada en el mecanismo de la neuroplasticidad, ahora llamada aprendizaje Do Hebbiano. El aprendizaje hebbiano se considera una regla típica de aprendizaje no supervisado, y sus variantes posteriores fueron los primeros modelos de refuerzo a largo plazo. A partir de 1948, los investigadores aplicaron la idea de este modelo computacional a la máquina de Turing tipo B.

Farley y Wesley A. Clark (1954) utilizaron por primera vez una computadora, luego llamada calculadora, para simular una red hebbiana en el MIT. Nathaniel Rochester (1956) y otros simularon el comportamiento de una red neuronal abstracta en una computadora IBM 704.

Frank Rosenblatt creó el perceptrón. Este es un algoritmo de reconocimiento de patrones que utiliza sumas y restas simples para implementar una red de aprendizaje por computadora de dos capas. Rosenblatt también utilizó símbolos matemáticos para describir circuitos que no se encontraban en el perceptrón básico, como los circuitos XOR. Estos bucles siguieron siendo imposibles de procesar por las redes neuronales hasta que Paul Webers (1975) creó el algoritmo de retropropagación.

Después de que Marvin Minsky y Seymour Papert (1969) publicaran un estudio sobre aprendizaje automático, la investigación sobre redes neuronales se estancó. Descubrieron dos problemas clave con las redes neuronales.

La primera es que el perceptrón básico no puede manejar bucles XOR. El segundo problema importante es que las computadoras no son lo suficientemente potentes para manejar los largos tiempos de cálculo que requieren las grandes redes neuronales. Hasta que las computadoras tuvieron una mayor potencia informática, la investigación sobre redes neuronales avanzó lentamente.

2. Algoritmo de retropropagación y resurgimiento

Un desarrollo clave que ocurrió más tarde fue el algoritmo de retropropagación inventado por Paul Webers (Werbos 1975). Este algoritmo resuelve eficazmente el problema XOR, así como el problema más general del entrenamiento de redes neuronales multicapa.

A mediados de la década de 1980, el procesamiento paralelo distribuido (entonces llamado conexionismo) se hizo popular. El libro de texto de David Rumhart y James McClelland ofrece un tratamiento integral de la aplicación del conexionismo a las simulaciones por computadora de la actividad neuronal.

Las redes neuronales se consideran tradicionalmente modelos simplificados de la actividad neuronal en el cerebro, aunque la conexión entre este modelo y la estructura fisiológica del cerebro es controvertida. No está claro hasta qué punto las redes neuronales artificiales pueden reflejar la función cerebral.

Las máquinas de vectores de soporte y otros métodos más simples (como los clasificadores lineales) superaron gradualmente a las redes neuronales en popularidad en el aprendizaje automático, pero la aparición del aprendizaje profundo a finales de la década de 2000 reavivó el interés en las redes neuronales.

3. Progreso después de 2006

La gente ha utilizado CMOS para crear dispositivos informáticos para simulación biofísica y computación neuromórfica. Investigaciones recientes son prometedoras en nanodispositivos para análisis de componentes principales a gran escala y redes neuronales convolucionales.

Si tiene éxito, esto crearía un nuevo tipo de dispositivo de computación neuronal, porque se basa en el aprendizaje en lugar de la programación, y es fundamentalmente analógico en lugar de digital, aunque su primer ejemplo podría ser un dispositivo CMOS digital. .

Entre 2009 y 2012, la red neuronal recurrente y la red neuronal de avance profundo desarrolladas por el grupo de investigación de Jürgen Schmidhuber en el laboratorio suizo de IA IDSIA ganaron 8 concursos internacionales sobre reconocimiento de patrones y aprendizaje automático.

Por ejemplo, el LSTM bidireccional y multidimensional de Alex Graves et al ganó 3 competiciones ICDAR sobre reconocimiento de ligaduras en 2009 y no conocía previamente la información sobre los 3 idiomas que se debían aprender. .

La implementación basada en GPU escrita por Dan Ciresan de IDSIA y sus colegas basándose en este método ha ganado múltiples concursos de reconocimiento de patrones, incluido el concurso de reconocimiento de señales de tráfico IJCNN 2011, etc.

Su red neuronal también es la primera en lograr o superar el rendimiento en puntos de referencia importantes, como el reconocimiento de señales de tráfico IJCNN 2012 y el problema de dígitos escritos a mano MNIST de Yann LeCun de la Universidad de Nueva York.

Tan profundo y alto como el neocognitrón inventado por Kunihiko Fukushima en 1980 y la estructura estándar de la visión (inspirada en las células simples pero complejas descubiertas por David H. Hubel y Torsten Wiesel en la corteza visual primaria) Las estructuras neuronales se pueden entrenar utilizando métodos de aprendizaje no supervisados ​​del laboratorio de Jeffrey Hinton en la Universidad de Toronto.

En 2012, las redes neuronales se desarrollaron rápidamente, principalmente debido a la mejora de la tecnología informática, que hizo que muchas operaciones complejas fueran de bajo costo. Tomando AlexNet como símbolo, comenzaron a aparecer una gran cantidad de redes profundas.

La red neuronal residual apareció en 2014, lo que liberó en gran medida las limitaciones de profundidad de las redes neuronales y dio lugar al concepto de aprendizaje profundo.

Composición

Una red neuronal artificial típica tiene las siguientes tres partes:

1 Estructura (Arquitectura) La estructura especifica las variables de la red y su topología. relación. Por ejemplo, las variables en una red neuronal pueden ser los pesos de las conexiones neuronales y las actividades de las neuronas.

2. Función de Activación (Regla de Activación) La mayoría de los modelos de redes neuronales tienen una regla dinámica de escala de tiempo corto para definir cómo las neuronas cambian sus valores de activación en función de las actividades de otras neuronas. Generalmente, la función de activación depende de los pesos en la red (es decir, los parámetros de la red).

3. Regla de aprendizaje (Regla de aprendizaje) La regla de aprendizaje especifica cómo se ajustan los pesos en la red con el tiempo. Generalmente esto se considera una regla dinámica a largo plazo. En general, la regla de aprendizaje depende del valor de activación de la neurona. También puede depender del valor objetivo proporcionado por el supervisor y del valor del peso actual.

Por ejemplo, una red neuronal utilizada para el reconocimiento de escritura a mano tiene un conjunto de neuronas de entrada. Las neuronas de entrada se activan mediante datos de imagen de entrada. Los valores de excitación de estas neuronas se pasan a otras neuronas después de que los valores de excitación se ponderan y pasan a través de una función (determinada por el diseñador de la red).

Este proceso se repite hasta que se dispara la neurona de salida. Finalmente, el valor de activación de la neurona de salida determina qué letra se reconoce.