¿Qué es y cómo funciona dalle-mini?

Dalle mini es una IA gratuita y de código abierto que produce imágenes sorprendentes a partir de entradas de texto. Así es como funciona.

Estamos seguros de que has visto fotos como esas en tu cuenta de Twitter en los últimos días. Si te preguntabas qué eran, son imágenes generadas por una IA llamada DALL·E mini. Si nunca los has visto, debes leer este artículo porque te los estás perdiendo. Si te preguntas cómo es posible, estás en el artículo perfecto y sabrás la respuesta en menos de cinco minutos.

Dalle Mini

Este nombre, DALL·E, ya debe sonarte, ya que hay versiones de imágenes de este modelo realizadas por Open AI el año pasado con resultados increíbles. Pero este es diferente. DALL·E mini es un proyecto de código abierto creado por la comunidad inspirado en la primera versión de DALL·E y ha seguido evolucionando desde entonces, con resultados ahora increíbles gracias a Boris Dayma y todos los colaboradores.

Sí, esto significa que puedes jugar con él de inmediato, gracias a huggingface.
El enlace está en las referencias a continuación, pero dale a este artículo unos segundos más en https://huggingface.co/spaces/dalle-mini/dalle-minies de jugar con él. Valdrá la pena, y sabrás mucho más sobre esta IA que todos los que conoces a tu alrededor.

¿Qué es y cómo funciona dalle-mini? — descripción general del modelo dalle-mini.

En esencia, DALL·E mini es muy similar a DALL·E, por lo que mi video inicial sobre el modelo es una excelente introducción a este. Tiene dos componentes principales, como sospechas, un idioma y un módulo de imagen.

Primero, tiene que entender el mensaje de texto y luego generar imágenes a continuación, dos cosas muy diferentes que requieren dos modelos muy diferentes. Las principales diferencias con DALL·E radican en las arquitecturas del modelo y los datos de entrenamiento, pero el proceso de principio a fin es prácticamente el mismo. Aquí tenemos un modelo de lenguaje llamado BART. BART es un modelo capacitado para transformar la entrada de texto en un lenguaje comprensible para el siguiente modelo. Durante el entrenamiento, enviamos pares de imágenes con subtítulos a DALL·E mini. BART toma el título de texto y lo transforma en tokens discretos, y lo ajustamos en función de la diferencia entre la imagen generada y la imagen enviada como entrada.

Pero entonces, ¿qué es eso de aquí que genera la imagen? A esto lo llamamos decodificador. Tomará esta nueva representación de subtítulos producida por BART, a la que llamamos codificación, y la decodificará en una imagen. En este caso, el decodificador de imágenes es VQGAN, un modelo que ya cubrí en el canal, así que definitivamente los invito a verlo si les interesa.

En resumen, VQGAN es una gran arquitectura para hacer lo contrario. Aprende cómo pasar de un mapeo de codificación de este tipo y generar una imagen a partir de él. Como sospecha, GPT-3 y otros modelos generativos de lenguaje hacen algo muy similar, codifican texto y decodifican el mapeo recién generado en un nuevo texto que le devuelve. Aquí es lo mismo, pero con píxeles formando una imagen en lugar de letras formando una oración. Aprende a través de millones de pares de imágenes de codificación de Internet, por lo que básicamente sus imágenes publicadas con subtítulos, y termina siendo bastante preciso en la reconstrucción de la imagen inicial.

Luego, puede alimentarlo con nuevas codificaciones que se parecen a las que se están entrenando pero que son un poco diferentes, y generará una imagen completamente nueva pero similar. De manera similar, generalmente agregamos solo un poco de ruido a estas codificaciones para generar una nueva imagen que representa el mismo mensaje de texto.

¡Y voilá! Así es como DALL·E mini aprende a generar imágenes a partir de sus leyendas de texto.

Como mencionamos, es de código abierto e incluso puedes jugar con él de inmediato, gracias a Huggingface. Por supuesto, esto fue solo una descripción general simple, y omití algunos pasos importantes para mayor claridad. Si desea obtener más detalles sobre el modelo, vinculé excelentes recursos en las referencias a continuación. También publiqué recientemente dos videos cortos en YouTube que muestran algunos resultados divertidos , así como resultados de comparación con DALL·E 2 para las mismas indicaciones de texto .

¡Es bastante genial de ver!

Acá está el enlace

https://huggingface.co/spaces/dalle-mini/dalle-mini