Red de conocimiento informático - Conocimiento informático - Muestre su yo perfecto El algoritmo de IA de NVIDIA mejora la experiencia de videoconferencia

Muestre su yo perfecto El algoritmo de IA de NVIDIA mejora la experiencia de videoconferencia

El impacto del nuevo coronavirus ha acelerado la demanda de trabajo de oficina móvil entre empresas de todos los ámbitos de la vida. En el proceso, un gran número de usuarios y empresas han optado por las videoconferencias en línea. Entonces, ¿cómo mostrar un yo más perfecto en las videoconferencias?

Recientemente se celebró oficialmente la Conferencia Internacional 2021 sobre Visión por Computador y Reconocimiento de Patrones (CVPR 2021). El SDK de transmisión de video Maxine Cloud AI de NVIDIA, basado en la investigación de GAN, ahora se exhibe en CVPR 2021. Echemos un vistazo a cómo la investigación de GAN está remodelando las videoconferencias.

Despierta, enciende tu computadora portátil y enciende tu cámara web: con la tecnología de inteligencia artificial desarrollada por investigadores de NVIDIA, siempre podrás lucir lo mejor posible en las videollamadas.

Vid2Vid Cameo es uno de los modelos de aprendizaje profundo detrás del SDK NVIDIA Maxine para videoconferencias. Puede sintetizar una imagen 2D de una persona con la ayuda de una red generativa adversaria (GAN) y un video humano parlante realista. caras.

Para utilizar la maqueta, los asistentes deben enviar una imagen de referencia (ya sea una foto real o un avatar de dibujos animados) antes de unirse a la videollamada. Durante la sesión, el modelo de IA capturará los movimientos en tiempo real de cada persona y los aplicará a imágenes estáticas cargadas previamente.

Es decir, después de subir una foto de una persona con traje formal, incluso si el asistente tiene el pelo desordenado y está en pijama, puede presentarse a la llamada con ropa de trabajo inteligente, porque la inteligencia artificial puede convertir los movimientos faciales del usuario en fotografías de referencia. Si la persona con la que estás hablando gira hacia la izquierda, la tecnología puede ajustar la perspectiva para que la persona con la que estás hablando parezca estar mirando directamente a la cámara.

Además de ayudar a los asistentes a verse mejor, esta tecnología de IA puede reducir el ancho de banda necesario para las videoconferencias hasta 10 veces, eliminando la fluctuación y la latencia. Pronto estará disponible como códec AI Face en el SDK de códec de vídeo de NVIDIA.

El investigador de NVIDIA y cocreador del proyecto, Mingyu Liu, dijo: "Muchas personas tienen un ancho de banda de red limitado pero aún quieren tener videollamadas fluidas con amigos y familiares. Además de animadores, editores de fotografías y desarrolladores de juegos Además, esta tecnología básica también puede ayudarles".

Vid2Vid Cameo se anunció esta semana en la prestigiosa Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones, y es uno de los 28 artículos que NVIDIA publicó en la conferencia virtual. También se lanzó en AI Playground, donde todos pueden experimentar demostraciones de nuestra investigación de primera mano.

La inteligencia artificial brilla

En un guiño a la película clásica Mi villano favorito (también un éxito en Netflix), los investigadores de Nvidia rápidamente utilizaron en una conferencia virtual el suyo Modelo GAN de reconocimiento facial. La demostración destaca las características clave de Vid2Vid Cameo, incluida la reorientación facial, avatares animados y compresión de datos.

Estas capacidades llegarán al SDK de NVIDIA Maxine, proporcionando a los desarrolladores modelos previamente entrenados que están optimizados para efectos de video, audio y realidad aumentada en videoconferencias y transmisión en vivo.

Los desarrolladores ya tienen acceso a los efectos de Maxine AI, incluida la eliminación inteligente de ruido, el muestreo de vídeo y la estimación de la pose humana. El SDK se puede descargar gratis y se puede utilizar con la plataforma NVIDIA Jarvis para aplicaciones de IA conversacionales, incluidas la transcripción y la traducción.

Saludos de IA

Vid2Vid Cameo crea animaciones realistas de habla facial con IA para videoconferencias con solo dos elementos: una foto de la apariencia de la persona y una transmisión de video. Puede determinar el efecto de la animación. de la imagen.

El modelo se desarrolló en sistemas NVIDIA DGX y se entrenó utilizando un conjunto de datos de 180.000 vídeos de alta calidad de caras hablando. La red ha dominado la identificación de 20 puntos clave que pueden usarse para modelar movimientos faciales sin anotaciones humanas. Estos puntos codifican la ubicación de características, incluidos ojos, boca y nariz.

Luego extraerá estos puntos clave de la imagen de referencia del tema de la llamada, que podrá enviarse a otros participantes de la videoconferencia con antelación o reutilizarse en reuniones anteriores. De esta manera, la plataforma de videoconferencia solo necesita enviar datos sobre el movimiento de puntos clave en el rostro del orador, en lugar de enviar una transmisión masiva de video en vivo de un asistente a otros asistentes.

Para el extremo receptor, el modelo GAN utiliza esta información para simular la apariencia de la imagen de referencia para sintetizar el video.

Al comprimir y enviar solo las ubicaciones de los títulos y los puntos clave de un lado a otro, en lugar de la transmisión de video completa, la tecnología reduce 10 veces el ancho de banda requerido para las videoconferencias, lo que resulta en una experiencia de usuario más fluida. Este modelo se puede utilizar para transmitir diferentes números de puntos clave para adaptarse a diferentes entornos de ancho de banda sin afectar la calidad visual.

Además, el ángulo de visión del vídeo de la llamada facial generado se puede ajustar libremente para mostrar al usuario desde un ángulo lateral o recto, o desde un ángulo de cámara superior o inferior. Los editores de imágenes que trabajan con imágenes fijas también pueden utilizar esta función.

Los investigadores de NVIDIA descubrieron que Vid2Vid Cameo puede producir imágenes más realistas que los modelos avanzados, ya sea que la imagen de referencia y el vídeo sean de la misma persona, o que la IA se encargue de transferir los movimientos de una persona a la otra. Imagen de referencia del otro, efecto más claro.

Esta última característica puede aplicar los movimientos faciales de un orador para animar avatares digitales en videoconferencias, o incluso crear imágenes y movimientos realistas para videojuegos o personajes de dibujos animados.

El artículo de Vid2Vid Cameo fue coautor de los investigadores de NVIDIA Ting-Chun Wang, Arun Mallya y Ming-Yu Liu***. El equipo está formado por más de 200 científicos de todo el mundo y se centra en la inteligencia artificial. , visión por computador, vehículos autónomos, robótica y gráfica.

Nos gustaría agradecer al actor Edan Moses, quien da voz al profesor en inglés en House of Paper de Netflix, por brindarnos la introducción anterior a nuestra última contribución en video sobre IA.

Finalmente, las videoconferencias ahora se han convertido en parte de la vida diaria de las personas, ayudando a millones de personas a trabajar, estudiar, entretenerse e incluso buscar tratamiento médico, y NVIDIA Maxine integra capacidades avanzadas de video, audio e inteligencia artificial conversacional para Un gran avance en eficiencia para plataformas de videoconferencia que nos ayudan a mantenernos conectados. (NVIDIA Maxine es la primera de su tipo en el mundo.