Red de conocimiento informático - Conocimiento informático - ¿Cómo mostrar texto específico en imágenes generadas por IA?

¿Cómo mostrar texto específico en imágenes generadas por IA?

Lo que es muy popular actualmente es permitir que la IA forme imágenes de texto. Lo he probado.

En la actualidad, Stable?Diffusion y?DALLE-2?no lo han hecho específicamente. Realizar este aspecto del texto con entrenamiento generativo, incluso con solicitudes similares, puede generar fácilmente texto confuso o distorsionado. Sin embargo, puede agregar texto a la imagen resultante utilizando software de edición de imágenes como Adobe Photoshop, GIMP, etc. Abra la imagen generada por IA, seleccione la herramienta adecuada (como la herramienta de texto) en el modo de edición, establezca parámetros como fuente, tamaño, color, etc., y luego agregue el texto especificado en la imagen. Este problema se puede evitar de manera efectiva y los jugadores novatos pueden evitar correr a toda velocidad.

Sin embargo, ya hay muchas personas que tienen necesidades similares, por ejemplo, quieren imprimir palabras específicas en carteles y ropa, o hacer tatuajes específicos, marcas de agua, etc. Esto es realmente muy práctico. Se dice que la IA de Google es mejor y el eDiff-I lanzado públicamente por Nvidia ya tiene más resultados disponibles.

Creo que la idea general es utilizar un modelo de generación de texto, ingresar el texto que debe mostrarse en el modelo y luego generar la imagen correspondiente. Hay muchos modelos de generación de texto de código abierto (por ejemplo, AttnGAN, StackGAN, etc.) disponibles para esta tarea.

Por ejemplo, cuando los internautas publican imágenes, puedes usar directamente "¿usar? ¿una? ¿camiseta? ¿leer?" para generar texto común y corriente. "Algunas palabras" intentan generarse, pero incluso con este método, es difícil establecer la dirección/tamaño/estilo de la fuente, etc. Si se trata de un logotipo o un tatuaje, es mejor utilizar un método similar a PS multiplicar. Se puede integrar

En "Estabilidad" y "Difusión", la generación automática es la mejor. Si no se puede integrar, también puede esperar a que los grandes creen directamente un complemento. función. Este método requiere algoritmos y datos de entrenamiento relevantes, y la tecnología de aprendizaje automático puede ayudar a lograr la asociación entre imágenes y texto

. De hecho, ahora existen muchos métodos similares para pellizcar a las personas en los juegos. El que me impresionó profundamente es el "Zhonglie" de Yinzi, que en realidad consiste en superponer imágenes y vincularlas al modelado de personajes. En cuanto a que alguien mencionara el uso de "controlNet" para hacerlo, mi pensamiento inicial fue que tal vez no podría controlarlo tan finamente (o tal vez no lo estudié lo suficientemente a fondo...).

A juzgar por la descripción del modelo, el modelo y la función de preprocesamiento más prometedores que proporciona actualmente "controlNet" es "mlsd", pero se utiliza principalmente para detectar bordes de edificios, ¿verdad? Aún necesito probarlo. . En resumen, mi idea es que esto no debería ser difícil para las grandes empresas o las empresas de refinamiento de modelos. Intentaré agregar capacitación en texto, pero el chino puede no ser muy bueno.

En el futuro, cuando más personas mencionen el "problema", es posible que haya modelos o complementos que sean más fáciles de implementar. Ahora es un poco abrumador luchar para encontrar alguna tecnología extraña.