Profundidad: cómo combinar el aprendizaje profundo con la conducción autónoma
El siguiente es un resumen del discurso:
Soy Li Xingyu, jefe del negocio automotriz de Horizon Robotics. Un año después del establecimiento de Horizon Robotics, Yu Kai, el. El fundador del Instituto de Investigación de Aprendizaje Profundo Baidu es Baidu Deep Learning. El decano del instituto, este es también el primer instituto de aprendizaje profundo en China fundado por él. La empresa Horizon que fundó se centra en la investigación y el desarrollo de tecnología de aprendizaje profundo, por lo que el tema que quiero compartir con ustedes hoy es: "¿Cómo combinar el aprendizaje profundo y la conducción autónoma?
|Antecedentes
|Antecedentes: Los entornos de conducción complejos son oportunidades para el aprendizaje profundo
Cabe decir que en el enfrentamiento de este año entre AlphaGo y Lee Sedol, la atención de todos hacia los robots ha alcanzado un nivel muy alto. , El aprendizaje de conducción autónoma existe desde hace mucho tiempo. Este año, Toyota hizo una demostración sistemática. No enseñaron ninguna regla de conducción, sino que simplemente condujeron al azar. Estos 8 autos fueron sometidos a un sistema de entrenamiento. no hubo colisión durante 8 horas, lo cual es realmente milagroso.
Desde una perspectiva de capital, esta inversión de mil millones de dólares realmente demuestra el compromiso de la industria con el aprendizaje profundo y la tecnología de aprendizaje reforzado. ¿Por qué necesitamos aplicar esta tecnología a la conducción autónoma? Mil palabras se pueden resumir en una frase: Complejidad Vemos a mucha gente cuestionarse muchas veces la conducción autónoma. De hecho, sus dudas sobre este asunto son complicadas. En las intersecciones, las condiciones de las carreteras son muy complicadas, incluido el hecho de que China no ha entrado hace mucho tiempo en la sociedad del automóvil y es necesario mejorar las habilidades de conducción. En las condiciones nacionales especiales, los cambios de carril son muy frecuentes y hay muchos giros. Un escenario es realmente muy desafiante para los ADAS tradicionales, y esta complejidad es exactamente una de las ventajas del aprendizaje profundo.
Por supuesto, muchas personas también preguntarán si las personas no desempeñan un papel en este campo. de la conducción autónoma? Llevamos mucho tiempo trabajando en el campo de la conducción autónoma. La relación entre las personas y los coches no es en realidad una simple relación entre servicio y ser atendido, sino una relación entre personas y caballos. No sabe qué hacer, si ir rápido o lento. Esto requiere control y ajuste humanos. Lo que el caballo puede hacer es detenerse cuando hay un acantilado frente a él, lo digas o no. Reducir los riesgos a un nivel muy bajo, y a un nivel alto, se trata más de la relación con las personas. Por tanto, es un tema muy importante en el campo de la conducción autónoma. Es el aprendizaje de hábitos de conducción. Los hábitos de conducción incluyen el aprendizaje de métodos de conducción especiales.
Este es un análisis muy estándar de la conducción autónoma realizado por la Administración de Carreteras de EE. UU. De nuestra comunicación con los fabricantes de automóviles, podemos ver que el foco de la investigación y el desarrollo es. Todavía se basa en el Nivel 13, que es una conducción altamente autónoma. La principal diferencia entre el Nivel 4 y el Nivel 13 es garantizar la prevención de colisiones de emergencia bajo cualquier circunstancia. El segundo es realizar parcialmente la conducción autónoma en carreteras con buenas condiciones. No debería haber demasiados problemas en las carreteras. Ahora nos centramos principalmente en resolver algunas situaciones especiales en las carreteras en situaciones en las que las condiciones son relativamente buenas en las carreteras principales de la ciudad, como el anillo medio, el anillo interior y el anillo exterior de Shanghai. Se requiere un aprendizaje profundo en situaciones especiales, especialmente en los semáforos.
|¿Por qué es importante el aprendizaje profundo?
Después de presentar los antecedentes, hablemos de por qué el aprendizaje profundo ha llamado la atención. La palabra "aprendizaje profundo" está muy de moda para todos ahora.
En primer lugar, ¿por qué llama la atención?
Debe decirse que la historia del aprendizaje profundo es en realidad muy larga. La historia más larga se remonta a finales de la década de 1950. Ha habido varios altibajos durante el largo período de desarrollo. sus altibajos. Por ahora, el aspecto más atractivo del aprendizaje profundo es el aprendizaje de un extremo a otro.
Por ejemplo, si el sistema de aprendizaje automático reconoce una imagen, si la imagen es una persona, la utilizará como entrada del nombre. Generalmente podrá ver la cantidad de información sobre la cara. varios megabytes, millones de bytes y el resultado final es de solo unos pocos bytes. Esto es de un extremo a otro. Puede convertir números no estructurados muy complejos en representaciones, sonidos digitales optimizados. incluidos los datos generados por transacciones financieras.
A juzgar por la situación actual, el primero es muy adecuado para la era del big data. En la era pasada, todo el mundo estudiaba algoritmos de aprendizaje profundo. En ese momento, no se llamaba aprendizaje profundo, sino redes neuronales profundas. Pero a todos les resultó difícil ajustarlo muy bien, porque en ese momento solo aprendieron una pequeña cantidad, miles de muestras, y en realidad era imposible ajustarlo muy bien. Más tarde, después de que aparecieron los grandes datos, el rendimiento se disparó. El último ejemplo es que en 2012, Alex y su maestro participaron en un concurso de clasificación y reconocimiento de imágenes, y su rendimiento aumentó repentinamente del 74% al 85%, lo que fue una gran mejora. . En otras palabras, la capacidad de la máquina para reconocer imágenes supera actualmente a la del ojo humano, por lo que los resultados prácticos son muy buenos. Para decirlo de manera más simple, para este tipo de simulación de comportamiento, esta afirmación puede no ser particularmente precisa. De hecho, la red relacionada con ella es muy complicada en términos de similitud.
Modelado de atención a la vanguardia de la tecnología de aprendizaje automático. Esta imagen es una descripción del proceso de reconocimiento facial. Si miras directamente al margen de la tecnología, encontrarás que el reconocimiento de imágenes consta de varias etapas de reconocimiento, cada una de las cuales pasa por una etapa de reconocimiento. Reducirá un poco la información de la imagen. Al principio, eliminará el color de la imagen y dejará solo la información de clasificación.
El segundo paso eliminará el registro del medio, dejando solo la información de la línea del borde, y luego la línea se convertirá en un punto. Este es un proceso de deformación continua desde baja altitud hasta gran altitud. la información de la imagen se simplificará en una letra, por lo que se denomina red neuronal convolucional multicapa. Todos sabemos que una relación tan compleja conducirá inevitablemente a una enorme generación de datos, porque definitivamente requerirá parámetros muy grandes.
Las tecnologías de aprendizaje automático también están mejorando constantemente, y ahora podemos verlas en varios campos.
Por ejemplo, ¿qué significa modelado de atención? Por ejemplo, si ve a mucha gente en un cóctel pero sólo habla con una o algunas de ellas, su sistema auditivo sólo se centrará en las palabras de la persona en la que desea centrarse, mientras bloquea las palabras de la otra persona. todos los demás. La solución es centrarse en expresiones específicas en entornos semánticos complejos. Cuando le dijimos a esta mujer, te pido que te concentres en el Frisbee, el sistema pudo reflejar el Frisbee hacia atrás, lo que demuestra que pudo enfocarse exactamente en lo que tú querías que se enfocara. Es muy crítico. porque el sistema es muy complejo y solo se necesita que el sistema de conducción autónoma preste atención a la información clave de los vehículos, las líneas de los carriles y las personas. Esta tecnología puede hacer que su eficiencia de procesamiento sea muy alta.
Además del modelado de la atención, existen otros avances, incluido el modelado de la memoria a corto y largo plazo. Logrará un aprendizaje profundo, no sólo un aprendizaje profundo en el espacio, en un plano bidimensional, sino un aprendizaje profundo en un plano bidimensional suficiente para permitirle recordar lo que sucedió en el pasado. Como viste en la demostración de Toyota, hace un gran trabajo manejando escenarios inmediatos, pero ¿alguna vez has pensado qué pasa si el procesamiento de una escena se basa en la historia pasada? Por ejemplo, cuando comparamos Warcraft y StarCraft, la siguiente acción depende de su estado histórico. En este momento, su red neuronal profunda necesita suficiente memoria para recordar el estado anterior. Este modelo de memoria es para resolver este problema, incluida la serialización, etc. esperar.
Aprendizaje por refuerzo
¿Qué es el aprendizaje por refuerzo?
Para dar una analogía más vívida, si consideramos el sistema anterior como una economía planificada, entonces el aprendizaje mejorado es una economía de mercado, que puede entenderse como una tecnología orientada a resultados. Para ser precisos, este es un proceso de optimización continua del juego entre un agente inteligente y el entorno. Por ejemplo, el automóvil Toyota de ahora es un caso típico de aprendizaje por refuerzo. Si choca, será castigado. Si no hay colisión, será recompensado. Repetir varias rondas fortalecerá estos comportamientos y alcanzará un valor esperado. El aprendizaje profundo se puede utilizar para la percepción ambiental y el aprendizaje reforzado se puede utilizar para el control, formando así un sistema de conducción autónomo completo.
Este es un diagrama marco muy típico del sistema de conducción autónoma de un automóvil. Hay varias entradas sensoriales en el lado izquierdo de la imagen. Uno de ellos son los datos ambientales que rodean el automóvil. El segundo son los datos de estado del propio coche, como la velocidad y la dirección, y el tercero son los datos de las personas en el coche, si están cansados y si quieren girar. Una es la fusión de la percepción y la otra es la fusión de la toma de decisiones.
?El aprendizaje profundo permite la conducción autónoma desde la percepción hasta el control
El aprendizaje profundo tiene grandes ventajas en la percepción y la toma de decisiones. Esto se puede subdividir aún más.
Nos hemos puesto en contacto con algunos fabricantes de automóviles nacionales, porque algunos fabricantes de automóviles han comenzado a realizar investigaciones y desarrollo más profundos sobre la conducción autónoma, por lo que tenemos que discutir muchos detalles. Simplemente podemos dividirlo en una parte, a saber, conciencia situacional y control de decisiones.
Conciencia de la situación y control de decisiones
Parte de la conciencia de la situación es la situación externa, lo que significa que hay que tener una percepción de todo el entorno, y la parte interna es tener una percepción. de las intenciones del conductor, incluidos los juicios sobre las intenciones del sistema. Incluyendo la identificación física del exterior, cuáles son obstáculos fijos, cuáles son barandillas y cuáles son áreas transitables. Para conducir, incluir el reconocimiento del estado es realmente muy importante. Este es también el foco del debate entre las escuelas de toda la industria de la conducción autónoma.
Representados por Google, lo que quieren hacer es una conducción totalmente autónoma, pero todavía hay que ir paso a paso. Esto hará que se enfrente a un proceso de conducción semiautónoma que Google cree que es complicado. Haga un buen trabajo entre la conducción manual y la conducción autónoma. No hay forma de hacer que esto sea particularmente confiable al cambiar entre dispositivos.
En realidad, creo que tengo que verlo de esta manera. En primer lugar, los OEM definitivamente seguirán un proceso paso a paso, porque son fabricantes de automóviles. La segunda cosa en este asunto es que el aprendizaje profundo puede ser de gran ayuda para aliviar este problema. No podemos decir que todo se pueda solucionar, pero al menos se puede aliviar en gran medida. Porque el aprendizaje profundo tiene una mejor comprensión integral del estado del conductor que otros medios, porque se basa en una gran cantidad de análisis técnicos del conductor y establece una comprensión integral de él, incluidos sus hábitos de conducción, intenciones, etc.
El control de decisiones consta de varias partes. Hay una planificación de trayectoria de movimiento local para el vehículo y el estilo de conducción también debe tenerse en cuenta en la planificación. Por ejemplo, debe tener una fuerte sensación de movimiento, que es diferente. El último es el control del actuador, que es un circuito cerrado entre estados para ajustar.
Cabe decir que muchas empresas de nueva creación, incluidas empresas como Nvidia, están realizando muchos experimentos para estudiar cómo utilizar métodos de aprendizaje profundo para optimizar todo el sistema. NVIDIA lo hizo de manera más cruda, ignorando directamente la parte intermedia de toma de decisiones y correlacionando directamente la entrada del sensor con la entrada del estado del automóvil para hacer tal predicción. En otras palabras, Y es el actuador de freno, el pedal del acelerador y la dirección, y la entrada es información del automóvil e información ambiental. Es muy burdo y no realiza ningún análisis intermedio de inteligencia artificial.
Otro punto muy importante para la conducción autónoma es cómo probarla.
La principal inversión en conducción autónoma aún está en pruebas, no sólo en crear un sistema de software. Tesla hizo un trabajo muy inteligente al probarlo directamente en producción, acumulando así más de 176 millones de millas en un corto período de tiempo. Pero para hacer eso, todavía se requiere un sistema de simulación, y tener un sistema de simulación y cómo poder hacer simulaciones realistas en varios temas del sistema de simulación es en realidad lo que el aprendizaje por refuerzo puede ayudarlo a lograr.
Cuando crea un entorno virtual, desea utilizar varios dispositivos informáticos para simular un objetivo, simular docenas de personas, simular señales de tráfico, etc., cada uno de los cuales es un proceso dinámico y no lo hará. Cambiar. Por ejemplo, los semáforos cambian constantemente y la dinámica del vehículo también cambia. Una estructura tan compleja es en realidad muy adecuada para el aprendizaje profundo y el aprendizaje reforzado, incluso combinado con simulación.
En este sentido, los fabricantes de automóviles alemanes BMW y Audi están a la vanguardia. Por supuesto, Toyota también está haciendo lo mismo y ha trabajado mucho. Este es el diagrama estructural del cerebro del automóvil de Audi. zFAS. El módulo del sistema zFAS está equipado con el procesador móvil EyeQ3 de Mobileye y el chip NVIDIA TegraK1. La filosofía de Audi es clara: la clave de la conducción autónoma sigue estando en el aprendizaje.
Horizon también ha trabajado mucho en esta área. Tenemos una marca llamada Hugo, que es una plataforma abierta para automóviles.
(Reproducir video) Esta es la comprensión semántica de Hugo de todo el camino. Puede identificar diferentes tipos de objetos en el camino con diferentes colores. Por ejemplo, la cerca es roja, el camino es verde y el. El árbol es verde oscuro y el automóvil es violeta. Esta es una comprensión semántica integral de la carretera, que es muy crítica para los sistemas de conducción inteligentes. Por ejemplo, en el campo no hay carriles. líneas en el camino. Muchas carreteras no están estructuradas, como las carreteras rurales, donde no hay líneas de carril ni vallas, por lo que no tienes la posibilidad de cruzar automáticamente las líneas de carril y debes decidir por ti mismo qué parte de la carretera seguir.
Este es el reconocimiento realizado por Horizon, con NVIDIA en la esquina superior izquierda, lamentablemente no se puede mostrar vídeo dinámico. Horizon fue probado en Beijing en esta intersección donde el flujo de personas es realmente muy denso, Horizon completó muy bien el reconocimiento y también puede identificar a las personas en la cabina siempre que se muestre una cabeza.
Cuando se trata de detección de vehículos, Horizon ocupa el puesto número uno en reconocimiento KITTI desde agosto pasado, y Densebox es el nombre de la prueba.
Horizon es una empresa que se centra en la investigación y el desarrollo de algoritmos y chips. Estamos en la base de la solución. Estamos más dispuestos a cooperar con socios de la industria, varias empresas y fabricantes de automóviles para crear conjuntamente la solución final. producto. El equipo de algoritmos de Horizon es en realidad muy internacional. Su equipo de algoritmos proviene de Facebook, Baidu, la Academia de Ciencias de China, etc. Creo que en el campo del aprendizaje profundo, tenemos la oportunidad de estar básicamente al mismo nivel que las principales instituciones internacionales de desarrollo en China por primera vez. No se puede decir que sea absolutamente igual, pero no habrá una gran brecha.
|¿Por qué crear tu propio chip de aprendizaje profundo?
Justo ahora, el profesor Zhao también compartió por qué necesitamos chips de aprendizaje profundo. Mencionó que muchas empresas nacionales afirman que están haciendo esto, lo cual es bueno, porque todos saben que la estructura informática actual es así. Irrazonable.
Por ejemplo, la entrada de aprendizaje profundo es de alta intensidad. Esta entrada de alta intensidad no es adecuada para métodos de canalización como DSP. Entonces, ¿cuál es el problema con la GPU?
El siguiente paso del procesamiento después de múltiples entradas es que el almacenamiento en búfer de datos no se realiza bien. Desafortunadamente, la entrada de la red de aprendizaje profundo es contextual. En la capa oculta intermedia, este cuadro de convolución debe convolucionarse con el primer plano. Esto significa que lo primero que debe hacer es tomar los parámetros y calcularlos, lo que lleva a Allí. Son muchos los efectos externos que se producen en las estructuras generales normales.
En segundo lugar, porque el ancho de banda siempre es limitado.
El tercer problema es el consumo de energía. Estos son problemas muy reales.
Otro problema es que las redes neuronales profundas tienen muchos parámetros.
Toda la industria se ha dado cuenta de que si quieren desarrollarse en el campo del aprendizaje profundo, empresas como Horizon deben fabricar sus propios chips. Esto es algo similar a lo que hacía la industria de la telefonía móvil hace unos diez años. La industria de la telefonía móvil no tenía que fabricar sus propios chips, pero hoy hemos visto claramente que si quieres hacerlo, debes fabricar tus propios chips. Apple, Samsung y Huawei tienen sus propios chips. No lo hagas, solo usa chips de alta calidad, entonces podrás hacerlo. Si no lo haces y simplemente usas la plataforma de Qualcomm, aún puedes hacerlo, pero es una lástima que estés en el segundo escalón. Entonces lo mismo es cierto para el aprendizaje profundo. Aún puede usar chips Nvidia y Qualcomm, pero esta no es la brecha entre el segundo y el primer escalón, sino la brecha entre el segundo y el primer escalón. Debido a que los algoritmos evolucionan constantemente, es un problema si utilizas la afirmación de otra persona para superarlo lentamente.
Hay muchas empresas en China que hacen esto, incluida una empresa llamada Shenjian Technology. Recientemente anunciaron sus resultados, a saber, DPU, procesador de aprendizaje profundo, y el rendimiento de su unidad es 24.000 veces mayor que el de Intel. CPU anterior y 3.000 veces mayor que la GPU de Nvidia. Las optimizaciones que hacen son exactamente los problemas de compresión, optimización de acceso y reducción del consumo de energía que mencioné anteriormente.
Lo mismo ocurre con Horizon. Somos muy conscientes de este problema, por lo que nuestro enfoque es el mismo. En Horizon también fabricamos nuestros propios chips. Esperamos aumentar mil veces el índice general de consumo de energía en un corto período de tiempo.
¿Cuáles son los puntos de aplicación de la tecnología de aprendizaje profundo en los que Horizon se está centrando actualmente? Cuatro partes principales: habla, lenguaje, visión y control. Hay que decir que estas cuatro dimensiones pueden constituir un gran número de aplicaciones innovadoras, no sólo la conducción autónoma, sino también la monitorización de servidores en el hogar, etc. Nuestro objetivo es utilizar nuestros propios chips de algoritmo en el futuro para trabajar con una gran cantidad de socios intermedios, como empresas de aire acondicionado, empresas de robots de barrido, etc., para cubrir más de 1000 categorías de productos inteligentes. integrar hardware inteligente moderno Para potenciar verdaderamente la inteligencia, nuestro objetivo es definir el cerebro en la era del Internet de las cosas.
Mi intercambio termina aquí. Si está interesado en cooperar con Horizon, somos bienvenidos. Ofrecemos soluciones de plataforma, no categorías específicas ni productos finales.