Red de conocimiento informático - Conocimiento informático - ¿Qué opinas de las "Catorce conferencias sobre Visual SLAM" de Gobo?

¿Qué opinas de las "Catorce conferencias sobre Visual SLAM" de Gobo?

La tecnología SLAM se utiliza en los juegos de ordenador desde los años 90. Al jugar "StarCraft", el progreso de cada soldado en la niebla es inseparable del algoritmo SLAM. Entre los robots de barrido que cuestan varios cientos de yuanes, una placa única integrada que cuesta unos pocos yuanes, un sensor de infrarrojos que cuesta unos pocos yuanes y un motor de juguete que cuesta 1 yuan pueden completar el viaje a través de la habitación y completar la limpieza de la habitación. Para ser honesto, la estimación de estado no se utiliza en estos algoritmos, sin mencionar el álgebra de Lie, ni siquiera el álgebra lineal. Estimar la posición de un robot mediante sensores infrarrojos es mucho más sencillo, más preciso, más eficiente y no requiere el uso de cámaras para hacerlo. En la mayoría de las aplicaciones prácticas, los robots en realidad no necesitan estimar su propia posición. El robot sólo necesita encontrar el objetivo, moverse hacia él y evitar obstáculos cuando los encuentre. Si el sistema visual no puede encontrar el objetivo, navegará por la habitación en la que se encuentra.

Por lo tanto, en mi opinión, la tecnología SLAM no requirió mucha innovación antes del año 2000. En las aplicaciones de ingeniería robótica, el verdadero problema que las cámaras y la visión deben resolver es permitir que el robot sepa dónde está la sala de estar, dónde está la cocina y dónde está el refrigerador cuando el propietario da la instrucción "Ven al refrigerador". , el robot puede moverse hasta cerca del refrigerador, abrir la puerta del refrigerador y tomar las cosas. Los niños de tan solo cuatro o cinco años pueden hacer esto cuando se encuentran en un entorno desconocido y pueden observar el entorno por sí mismos y luego escuchar instrucciones de los adultos. Esto es lo que hace hoy la verdadera innovación. Su estimación de estado no es solo una estimación en un espacio tridimensional, sino que se realizará en un espacio semántico visual. El espacio semántico visual permite a los robots establecer una relación con los humanos sobre el entorno que los rodea. Esto se debe a que el modelado espacial tridimensional realizado por robots no puede comunicarse directamente con los humanos. Sólo modelando el espacio semántico visual de la sala podrán los robots comunicarse realmente con las personas y resolver problemas de aplicaciones prácticas. ¡Para hacer eso, sería un gigante de nivel NB!