Red de conocimiento informático - Conocimiento sistemático - Análisis en profundidad: ¿Por qué el aprendizaje profundo es tan popular en el campo de la inteligencia artificial?

Análisis en profundidad: ¿Por qué el aprendizaje profundo es tan popular en el campo de la inteligencia artificial?

El aprendizaje profundo primero ha logrado grandes avances en el reconocimiento de imágenes, sonido y semántica. Especialmente en el campo de imágenes y sonidos, la tasa de reconocimiento ha mejorado enormemente en comparación con los algoritmos tradicionales. entender El aprendizaje profundo es un algoritmo que imita el cerebro humano para percibir el mundo externo, y las señales naturales externas más directas son imágenes, sonidos y texto (no semánticos).

Reconocimiento de imágenes: la imagen es el primer campo del aprendizaje profundo. Daniel Yann LeCun comenzó a investigar sobre redes neuronales convolucionales ya en 1989 y logró cierto reconocimiento de imágenes a pequeña escala (escritas a mano). en imágenes ricas en píxeles hasta que Hinton y sus estudiantes lograron un gran avance en ImageNet en 2012, que mejoró enormemente la precisión del reconocimiento. En 2014, el grupo de investigación de visión por computadora dirigido por el profesor Tang Xiaoou de la Universidad China de Hong Kong desarrolló un modelo de aprendizaje profundo llamado DeepID, que logró una tasa de reconocimiento de 99,15 en el LFW (Labeled Faces in the Wild, una prueba de referencia ampliamente utilizada). para reconocimiento facial) La tasa de reconocimiento de los ojos humanos en LFW es 97,52. El aprendizaje profundo ha superado la tasa de reconocimiento de los ojos humanos en LFW a nivel de investigación académica.

Por supuesto, cuando se trata de reconocimiento facial en escenas reales, todavía no es satisfactorio. Por ejemplo, los rostros poco claros, las condiciones de iluminación, la oclusión local y otros factores afectarán la tasa de reconocimiento, por lo que en operaciones reales, el aprendizaje automático. Se combina con la confirmación manual, más apropiada. Hay muchas empresas que realizan reconocimiento facial en China, entre las cuales Face, Zhongke Osun, Sensetime, Linkface y Feisou Technology están a la vanguardia, con una profunda acumulación de datos en aplicaciones del mundo real o campos de segmentación vertical. En el campo del reconocimiento de emociones basado en tecnología de reconocimiento de rasgos faciales, Yuemian Technology y Facethink (Facethink es un proyecto de inversión inicial de Angel Bay) se encuentran entre las pocas empresas nacionales de nueva creación que han ingresado a este campo.

Reconocimiento de voz: el reconocimiento de voz se ha modelado durante mucho tiempo utilizando un modelo de mezcla gaussiana, que ha sido un método de modelado monopolista durante mucho tiempo. Sin embargo, aunque reduce la tasa de error del reconocimiento de voz, comercialmente. Las aplicaciones de nivel siguen siendo difíciles, es decir, no pueden alcanzar niveles utilizables en entornos ruidosos reales. Hasta la aparición del aprendizaje profundo, la tasa de error de reconocimiento se redujo en más del 30% con respecto al mejor nivel anterior, alcanzando un nivel disponible comercialmente. El Dr. Yu Dong y el Dr. Deng Li de Microsoft fueron los primeros en implementar este avance. Junto con Hinton, fueron los primeros en introducir el aprendizaje profundo en el reconocimiento de voz y lograron el éxito. Debido a la madurez de los algoritmos de reconocimiento de voz, las tasas de reconocimiento de iFlytek, Yunzhisheng y Speed ​​​​son similares en el reconocimiento general. iFlytek es pionero en la promoción, desde aplicaciones militares hasta civiles, incluida Internet móvil, Internet de vehículos y hogares inteligentes. están ampliamente involucrados.

Procesamiento del lenguaje natural (PNL): aunque el aprendizaje profundo no ha logrado resultados en el campo de la PNL como el reconocimiento de imágenes o el reconocimiento de voz, los modelos basados ​​​​en estadísticas siguen siendo la corriente principal de la PNL. Las palabras clave se extraen primero. A través del análisis semántico se comparan palabras y palabras clave, y el algoritmo determina la función de la oración (calcula las oraciones etiquetadas más cercanas a esta oración) y finalmente proporciona al usuario los resultados de salida de la base de datos preparada de antemano. Obviamente, esto obviamente no es inteligente. Solo puede considerarse como la implementación de una función de búsqueda, pero carece de capacidad lingüística real. Siri de Apple, XiaoIce de Microsoft y Xiao Lingling de Anwang están trabajando en el campo de los robots de chat inteligentes. Xiao Lingling es bastante interesante entre los muchos competidores. Su idea es "puedes chatear conmigo de manera informal", mientras que otros competidores se centran en ciertas áreas de nicho pero aún necesitan un chat universal en el sistema de nicho.

Por qué el aprendizaje profundo está progresando lentamente en el campo de la PNL: para el habla y las imágenes, sus elementos constituyentes (contornos, líneas, marcos del habla) pueden reflejar claramente entidades o fonemas sin preprocesamiento, y pueden ser simplemente se aplica a la red neuronal para el trabajo de reconocimiento.

El reconocimiento semántico es completamente diferente: en primer lugar, una oración en un texto es preprocesada por el cerebro y no es una señal natural, en segundo lugar, la similitud entre palabras no significa que sus significados sean similares, y los significados de frases simples; será ambiguo cuando se combine (especialmente en chino, por ejemplo, "Wan Wan Wan Unexpected" se refiere a una persona llamada Wan Wan que no lo esperaba, o significa que es inesperado, o es el nombre de una película) el diálogo requiere un lenguaje contextual. Comprender el entorno requiere que las máquinas tengan capacidades de razonamiento; los humanos tienen expresiones lingüísticas flexibles y muchas comunicaciones requieren conocimiento. Curiosamente, el aprendizaje profundo basado en el mecanismo de reconocimiento del cerebro humano tiene efectos insatisfactorios en las señales de texto procesadas por nuestro cerebro humano. Básicamente, el algoritmo actual todavía es una inteligencia artificial débil. Puede ayudar a los humanos a realizar rápidamente una ejecución automática (reconocimiento), pero aún no puede comprender el asunto en sí.