Red de conocimiento informático - Aprendizaje de programación - Interpretación del código fuente de nerf

Interpretación del código fuente de nerf

Las chicas que aman tomar selfies siempre tardan mucho en tomar una foto hermosa, solo para encontrar el ángulo más hermoso.

Por ejemplo, esta chica se hizo cuatro selfies delante de la estantería, pero no quedó satisfecha con ninguno de ellos.

Ahora puedo dejarle a Ai la cuestión de elegir el ángulo más bonito, para que mi hermana ya no tenga que preocuparse. Siempre que haya algunas fotos, puede generar selfies desde varios ángulos.

Luego, podrás encontrar el ángulo más bello en el vídeo generado por IA y compartirlo con tus amigos.

Esta inteligencia artificial fue desarrollada conjuntamente por la Universidad de Washington y Google.

Este método no requiere equipos demasiado complejos. Solo requiere la cámara y la CPU del teléfono inteligente para completar el cálculo y el renderizado. Esto es significativamente menos costoso que el lidar integrado del iPhone 12 Pro para generar imágenes en 3D.

¿Te resulta familiar cuando ves el nombre nerfies? Los nerfies son en realidad una combinación del yo nerf.

NeRF (Neural Radiation Field) es un modelo desarrollado recientemente por Google para convertir imágenes 2D en 3D, pero NeRF requiere que el sujeto permanezca completamente quieto durante todo el proceso.

Por ejemplo, cuando la chica de arriba tomó cuatro fotos, la postura de su cabeza inevitablemente cambiaría. Si NeRF se aplica directamente, el efecto será terrible.

Nerfies es un NeRF deformable que puede reconstruir escenas utilizando deformaciones no rígidas.

Basado en NeRF, el autor propone una regularización elástica de NeRF basada en principios de simulación geométrica y física, lo que mejora aún más la solidez de la transformación de 2D a tridimensional.

En NeRF variable, el autor introduce técnicas de regularización elástica, regularización de fondo y recocido mínimo local para evitar efectos adversos.

Los autores asocian un código de deformación latente (ω) y un código de apariencia (ψ) a cada imagen. El rayo de la cámara se rastrea en el sistema de coordenadas de observación y el campo de deformación se utiliza para transformar la muestra a lo largo del rayo al sistema de coordenadas estándar. El campo de deformación se codifica en MLP mediante el código de deformación ω.

Además, la posición de la muestra convertida (x0, y0, z0), la dirección de observación (θ, φ) y el código de apariencia ψ se utilizan como entradas al módulo NeRF de la plantilla de consulta MLP, y la muestra se integra a lo largo del rayo.

Variable NeRF no sólo se puede utilizar para selfies, sino que también tiene usos más interesantes.

Por ejemplo, crear el efecto de zoom de Hitchcock solía requerir habilidades fotográficas especiales, o grabar vídeos de lejos a cerca y luego postprocesarlos. Ahora bastarán unas cuantas fotos.

¿Y si no es necesario cambiar el ángulo de la escena, sino un cambio en la postura del personaje?

NeRF variable puede interpolar linealmente fotografías de poses arbitrarias entre los lados izquierdo y derecho de la cabeza.

Por último, otro propósito es generar vídeos anti-vibración. Dado que NeRF variable puede generar imágenes en cualquier ángulo, ahora puede dejar que su mano maneje el temblor y que ella se encargue de la estabilización.

Actualmente los autores no han publicado el código fuente, pero han puesto el botón GitHub en la página de inicio de su proyecto. Parece que están listos para abrirlo. ¿Estás ansioso por intentarlo?

Dirección del proyecto:

/event/2571160736900