Principios de reconocimiento de gestos para métodos de entrada de gestos
Los gestos se refieren a diversos movimientos realizados por las manos humanas bajo el control de la conciencia humana, como doblar los dedos, estirarlos y mover la mano en el espacio. Puede ser
Fecha de recepción: 2000. - 05 - 15
Proyecto de fondo: Proyecto de fondo industrial (Instituto No. 96311)
Sobre el autor: Zeng Fenfang (1940 -), mujer, de Yiyang, Hunan, este de China Profesor del Instituto de la Industria Naval.
Realizar una determinada tarea también puede ser comunicarse con personas para expresar un determinado significado o intención. La tecnología de entrada interactiva tridimensional basada en el reconocimiento de gestos, comúnmente utilizada, es el reconocimiento de gestos basado en datos basado en guantes y en la visión (como una cámara).
La mano humana tiene más de 20 articulaciones y sus gestos son muy complejos. El proceso de interacción en VR (Realidad Virtual) requiere analizar la formación de los gestos e
identificar su significado. Por ejemplo, si el usuario agarra objetos del entorno de forma natural, también puede producirle retroalimentación sensorial relevante. Por ejemplo, los guantes con retroalimentación de fuerza pueden hacer que las personas sientan el peso del objeto agarrado, mientras que los guantes con retroalimentación táctil. Puede sentir la textura de los objetos que toca el usuario, como por ejemplo qué tan áspera es la manta. Por lo tanto, es una tarea difícil pero muy significativa para las computadoras poder reconocer los gestos flexibles y complejos de los movimientos de la mano humana.
La clasificación de los gestos se remonta a la década de 1940, cuando los psicólogos Quek[7], Pavlovic[8] y otros estudiaron los gestos desde la perspectiva de la interfaz persona-computadora.
Según Sus funciones se dividen en:
Movimiento de la mano
Movimiento inconsciente de la mano
Movimiento consciente de la mano (gestos
Gestos de comunicación
Representar acciones
Representar símbolos (lenguaje de signos)
Citar el lenguaje de signos (como expresar números)
Gestos modales
Realización de tareas (como agarrar un martillo) Los gestos no solo son impulsados por los músculos esqueléticos, sino también por las creencias y la conciencia humanas. Implican comportamientos avanzados de las actividades de pensamiento humano.
Uno de los propósitos de la investigación. interacción persona-computadora. El primero es hacer que la máquina sea más conveniente para los usuarios humanos. El proceso desde el gesto del usuario hasta la "percepción" del gesto por parte del sistema se muestra en la
Figura 1
<. p>Figura 1 “Percepción” del sistema. “El proceso del gestoFig. 1Proceso de sensación del gesto por el sistema
El movimiento de la mano es la expresión del gesto La operación del usuario
La intención es el usuario El contenido de la tarea a completar, es decir, la actividad psicológica del usuario (gesto conceptual) G, se expresa a través del control de movimiento (transformación) con movimiento gestual H. (transformación). Thi) transforma el movimiento H de la mano en la información de entrada I del sistema, por lo que el proceso de mapeo de G a I es: Tgh. : G → H , es decir, H > Tgh ( G)
Thi : H → I , es decir, I > Thi ( H)
Tgi : G → I , es decir es, I > Thi ( Tgh ( G ) ) > Tgi ( G)
Entre ellos, Tgh es la función de transferencia de control de movimiento humano. Thi es la función de transferencia del dispositivo de entrada
. La tarea del reconocimiento de gestos es inferir y determinar a partir de la entrada del sistema I. La intención del usuario G es obviamente el proceso inverso del mapeo anterior, es decir,
G = T- 1
gi ( I) ( 1 )
H = T- 1
hola ( I) ( 2 )
G = T- 1
gh ( H) ( 3 )
Donde, T- 1
gi, T- 1
hola, T- 1
gh son las transformaciones inversas de Tgi, Thi y Tgh.
Entonces, el reconocimiento de gestos puede usar H = T- 1
Ingrese información I cuando esté hola (I), obtenga el movimiento de la mano H y luego use G = T- 1
Expresión del gesto gh (H)
La intención conceptual del gesto del usuario se puede inferir. El gesto conceptual G también se puede obtener directamente de G = T- 1
. gi (yo).
El reconocimiento de gestos se divide en reconocimiento de gestos estáticos y reconocimiento de gestos dinámicos. La mayor parte de la investigación actual se centra en el reconocimiento de gestos estáticos en línea, como la investigación de Lee sobre gestos estáticos aislados [10]. El reconocimiento dinámico de gestos es difícil. El método del cuadro clave se usa generalmente para registrar los estados inicial y final de cada gesto y la trayectoria de movimiento del gesto, y luego usa el algoritmo de interpolación para reconstruir el cuadro, pero aún es necesario dar restricciones. como Davis El reconocimiento dinámico de gestos estudiado estipula que la mano debe estar mirando hacia arriba al principio. La información gramatical de los gestos se transmite a través de la configuración de la mano y los cambios en el movimiento de la mano. Para
proporcionar a los usuarios la información de retroalimentación visual necesaria para que puedan ver sus manos durante el proceso de interacción
(la Figura 2 está dibujada con 3DSMAX), y también para analizar la interacción. proceso La relación interactiva entre la mano y el objeto virtual
requiere el establecimiento de un modelo geométrico de la mano y un modelo cinemático. La mano humana es un sistema de extremidades múltiples, compuesto por 27 huesos, que pueden considerarse como compuestos por 4 dedos adyacentes, un pulgar y la palma. Cada dedo está compuesto por segmentos de dedos y articulaciones. Por tanto, la mano
es una estructura conectada por articulaciones A medida que las articulaciones se mueven, la forma de la mano cambia constantemente. Este cambio puede describirse mediante cambios en la posición del espacio de estado de los segmentos de los dedos y las articulaciones [11].
Cada dedo (Ⅱ - Ⅴ) tiene cuatro grados de libertad, de los cuales
la base (MP) del dedo tiene dos grados de libertad, flexión y rotación, y el medio articulación del dedo (PIP)
Y la articulación final (DIP) tiene cada una un grado de libertad, principalmente movimiento de flexión. Además de tener los mismos cuatro grados de libertad que los otros cuatro dedos, el pulgar también tiene un movimiento de abducción
por lo que el pulgar tiene cinco grados de libertad (pulgar y La sección entre las palmas también se puede ignorar
). Además, existen dos grados de libertad para los movimientos de la palma hacia adelante, hacia atrás, hacia la izquierda y hacia la derecha. Por tanto, el movimiento de la mano tiene un total de 23 grados de libertad, es decir, el espacio de estados tiene 23 dimensiones.
Del análisis anterior se puede observar que cada dedo excepto el pulgar tiene cuatro grados de libertad,
de modo que se puede establecer una cadena para coordinar el mecanismo y movimiento del dedos. Toda la mano se puede vincular a cinco dedos (Ⅰ - Ⅴ) según la palma. El segmento de dedo MP se vincula al segmento de dedo PIP, y luego se vincula el segmento de dedo DIP. Cada vínculo puede obtener cuatro parámetros. Por lo tanto, los cinco dedos están estructurados en una estructura de árbol con la palma como nodo raíz. Cada nodo del árbol representa una articulación, y las articulaciones tienen características de movimiento interrelacionadas a través de los segmentos de los dedos.
212 Entrada por gestos
La entrada por gestos es el requisito previo para realizar la interacción por gestos. Se requiere poder seguir eficazmente el movimiento de la mano y facilitar el movimiento de la mano del usuario. No sólo requiere una determinación precisa de la posición, orientación y ángulo de flexión de los dedos de la mano, sino que también requiere pocas restricciones. en el movimiento del oponente. Por ahora, existen dos métodos de entrada de gestos: datos basados en guantes y visión (cámara).
21211 Entrada de gestos basada en guantes de datos
La entrada de gestos basada en guantes de datos [12] se basa en el uso de fibra óptica para medir directamente la mano en función de los guantes de datos con posición rastreadores que se usan en las manos
Se refiere a la flexión y la posición de las manos para lograr la entrada de gestos. Este artículo utiliza los datos de la mano derecha del 5th Glove producidos por 5DT Company sin un rastreador de posición
El guante tiene un sensor en la articulación media de cada dedo para medir la flexión y extensión promedio del dedo, y un Sensor de 2 ejes en la muñeca. El sensor de inclinación mide la rotación de la mano (rotación alrededor del eje Z) y la inclinación (rotación alrededor del eje X) para detectar el movimiento hacia arriba y hacia abajo y la rotación de la mano. Este guante***
tiene siete sensores, por lo que sólo se pueden leer siete valores de ángulo al mismo tiempo.
5th Glove también proporciona comandos, datos de informes, datos continuos, simulación
Ratón y otros métodos de trabajo, y puede definir gestos con uno, dos y tres dedos (eje Z) para controlar el entorno virtual. vuelo de la mano, punto de vista, velocidad de movimiento, etc.
El guante de datos 5th Glove está conectado a una microcomputadora a través de una interfaz en serie para transmitir señales de movimiento de la mano para controlar los movimientos de la mano. Puede convertir la postura (gesto) de la mano del usuario en datos legibles por computadora, permitiendo así que la mano agarre o empuje objetos virtuales. Las manos humanas chocarán con objetos durante el movimiento.
Entonces, en el sistema, además de realizar funciones como agarrar y soltar objetos, la operación interactiva de las manos virtuales también debe realizar colisiones.
detección.
21212 Entrada de gestos basada en la visión
La entrada de gestos basada en la visión utiliza una cámara para capturar imágenes de gestos y luego utiliza tecnología de visión por computadora para analizar las imágenes capturadas.
p>
Extraiga características de imágenes de gestos para lograr la entrada de gestos. Este método hace que el movimiento de la mano del usuario sea menos restringido y el usuario también puede ver directamente la imagen de la mano. La entrada de datos original mediante entrada basada en la visión es la imagen de la mano. El modelo tridimensional reconstruido se utiliza para construir la imagen del gesto, y los parámetros del modelo, como el ángulo de flexión del dedo, se ajustan para sintetizar los tres. Forma dimensional de la mano. Según la coincidencia entre los gráficos generados a mano y la imagen de la mano obtenida
, los parámetros del modelo obtenidos constituyen el gesto. En 1995, Lee J intae y Kunii Tosiyasv l. Investigación sobre el análisis automático de gestos tridimensionales utilizando datos de imágenes estereoscópicas [4]. Utiliza una cámara para capturar la imagen en movimiento de la mano, utiliza el método de extracción de contornos y reconocimiento de características de límites, extrae con éxito 27 parámetros interactivos de la mano y realiza la reconstrucción de gestos tridimensionales. De hecho, ya en 1981, Kroeger utilizó dos cámaras para implementar un sistema de captura de gestos, que utilizaba las manos del usuario en el espacio 3D de una "caja de espejos" del mismo tamaño que una alfombrilla de ratón. Se colocan dos espejos en un ángulo de aproximadamente 45 grados con respecto al plano frontal. Dos espejos reemplazan a un solo espejo para producir un punto de vista virtual, más dos planos verticales. y los tres puntos de vista se cruzan en ángulos rectos para proporcionar al usuario un cierto espacio de trabajo, en el que se le permite interactuar con la computadora.