Dall-e

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda
DALL-E
DALL-E sample.png
Información general
Tipo de programa software
Desarrollador OpenAI
Modelo de desarrollo Transformador de modelos de lenguaje
Lanzamiento inicial 5 January 2021
Licencia OpenAI
Enlaces

DALL-E (DALL · E estilizado) es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales, reveladas por OpenAI el 5 de enero de 2021.[1]​ Utiliza una versión de 12 mil millones de parámetros[2]​ del modelo GPT-3 Transformer para interpretar las entradas del lenguaje natural (como "un bolso de cuero verde con forma de pentágono" o "una vista isométrica de un capibara triste") y generar las correspondientes imágenes.[3]​ Puede crear imágenes de objetos realistas ("una vidriera policromada con la imagen de una fresa azul") así como objetos que no existen en la realidad ("un cubo con la textura de un puercoespín").[4][5][6]​ Su nombre es un acrónimo de WALL·E y Salvador Dalí.[2][3]

Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.[3]​ DALL-E, sin embargo, es capaz de generarlos a partir de indicaciones de lenguaje natural, que "comprende [...] y rara vez falla de manera importante".[3]

DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1]​ un modelo separado cuya función es "comprender y clasificar" su resultado.[3]​ Las imágenes que genera DALL-E están seleccionadas por CLIP, que presenta las imágenes de más alta calidad. [1]​ OpenAI se ha negado a publicar el código fuente de cualquiera de los modelos; una "demostración controlada" de DALL-E está disponible en el sitio web de OpenAI, donde se puede ver la salida de una selección limitada de mensajes de muestra.[2]​ Las comunidades han publicado alternativas de código abierto, capacitadas en cantidades más pequeñas de datos, como DALL-E Mini.[7]

Según MIT Technology Review, uno de los objetivos de OpenAI era "dar a los modelos de lenguaje una mejor comprensión de los conceptos cotidianos que los humanos usan para dar sentido a las cosas".[1]

Arquitectura[editar]

El modelo Generative Pre-Training Transformer (GPT) fue desarrollado inicialmente por OpenAI en 2018,[8]​ utilizando la arquitectura Transformer. La primera iteración, GPT, se amplió para producir GPT-2 en 2019;[9]​ en 2020 se volvió a ampliar para producir GPT-3.[10][2][11]

El modelo de DALL-E es una implementación multimodal de GPT-3[12]​ con 12 mil millones de parámetros[2]​ (reducido de los 175 mil millones de GPT-3)[10]​ que "intercambia texto por píxeles", entrenado en pares texto-imagen de Internet.[1]​ Utiliza el aprendizaje zero-shot para generar resultados a partir de una descripción y una pista sin más entrenamiento.[13]

DALL-E genera una gran cantidad de imágenes en respuesta a unas indicaciones. Otro modelo OpenAI, CLIP, se desarrolló junto (y se anunció simultáneamente) con DALL-E para "comprender y clasificar" este resultado.[3]​ CLIP se entrenó en más de 400 millones de pares de imágenes y texto.[2]​ CLIP es un sistema de reconocimiento de imágenes;[14]​ sin embargo, a diferencia de la mayoría de los modelos de clasificadores, CLIP no fue entrenado con conjuntos de datos seleccionados de imágenes etiquetadas (como ImageNet), sino con imágenes y descripciones extraídas de Internet.[1]​ En lugar de aprender de una sola etiqueta, CLIP asocia imágenes con subtítulos completos.[1]​ CLIP se entrenó para predecir qué subtítulo (de una "selección aleatoria" de 32.768 subtítulos posibles) era el más apropiado para una imagen, lo que le permitía identificar posteriormente objetos en una amplia variedad de imágenes fuera de su conjunto de entrenamiento.[1]

Funcionamiento[editar]

Imágenes producidas por DALL-E al indicarle que representase "una ilustración profesional en alta calidad de una jirafa dragón quimera. una jirafa imitando a un dragón. una jirafa hecha de dragón"

DALL-E es capaz de generar imágenes en una variedad de estilos, desde imágenes fotorrealistas[2]​ hasta pinturas y emoji. También puede "manipular y reorganizar" objetos en sus imágenes.[2]​ Una habilidad captada por sus creadores fue la correcta colocación de elementos diseñados en composiciones novedosas sin instrucciones explícitas: "Por ejemplo, cuando se le pide que dibuje un rábano japonés sonándose la nariz, tomando un café con leche o montando un monociclo, DALL · E a menudo dibuja el pañuelo, manos y pies en lugares plausibles ".[15]​ Si bien DALL-E exhibió una amplia variedad de destrezas y habilidades, en su lanzamiento público, la mayor parte de la cobertura se centró en un pequeño subconjunto de imágenes de salida "surrealistas"[1]​ o "extravagantes".[16]​ Específicamente, la producción de DALL-E para "una ilustración de un rábano japonés bebé en un tutú paseando a un perro" se mencionó en piezas de Input,[17]​ NBC,[18]Nature,[19]VentureBeat,[2]​ Wired,[20]​ CNN,[21]New Scientist[22]​ y la BBC;[23]​. Su resultado de "un sillón con la forma de un aguacate" fue presentado por Wired,[20]VentureBeat,[2]New Scientist,[22]​ NBC,[18]MIT Technology Review,[1]​ CNBC,[16]​ CNN[21]​ y BBC.[23]​ En contraste, el ingeniero de aprendizaje automático Dale Markowitz informó sobre el desarrollo involuntario de las habilidades de razonamiento visual de DALL-E suficientes para resolver las Matrices de Raven (pruebas visuales que a menudo se administran a humanos para medir la inteligencia) en un artículo para TheNextWeb.[24]

Nature presentó DALL-E como "un programa de inteligencia artificial que puede dibujar prácticamente cualquier cosa que pida".[19]​ Thomas Macaulay de TheNextWeb calificó sus imágenes de "impactantes" y "realmente impresionantes", y destacó su capacidad para "crear imágenes completamente nuevas mediante la exploración de la estructura de un mensaje, incluidos objetos fantásticos que combinan ideas no relacionadas que nunca se alimentaron en el entrenamiento".[25]​ ExtremeTech dijo que "a veces las representaciones son un poco mejores que pintar con los dedos, pero otras veces son representaciones sorprendentemente precisas";[26]TechCrunch señaló que, si bien DALL-E era "un trabajo fabulosamente interesante y poderoso", ocasionalmente producía extrañas o incomprensibles salida, y "muchas imágenes que genera están más que un poco ... apagadas":[3]

Decir "un bolso de cuero verde con forma de pentágono" puede producir lo que se espera, pero "un bolso de gamuza azul con forma de pentágono" puede producir pesadillas. ¿Por qué? Es difícil de decir, dada la naturaleza de caja negra de estos sistemas.[3]

A pesar de esto, DALL-E fue descrito como "notablemente robusto a tales cambios" y confiable en la producción de imágenes para una amplia variedad de descripciones arbitrarias.[3]​ Sam Shead, que informa para CNBC, calificó sus imágenes de "extravagantes" y citó a Neil Lawrence, profesor de aprendizaje automático en la Universidad de Cambridge, quien lo describió como una "demostración inspiradora de la capacidad de estos modelos para almacenar información sobre nuestro mundo y generalizar en formas que los humanos encuentran muy naturales ". Shead también citó a Mark Riedl, profesor asociado de la Escuela de Computación Interactiva de Georgia Tech, diciendo que los resultados de la demostración de DALL-E demostraron que era capaz de "combinar conceptos de manera coherente", un elemento clave de la creatividad humana, y que "la demo de DALL -E es destacable por producir ilustraciones que son mucho más coherentes que otros sistemas Text2Image que he visto en los últimos años ".[16]​ Riedl también fue citado por la BBC diciendo que estaba "impresionado por lo que el sistema podía hacer ".[23]

También se destacó la capacidad de DALL-E para "completar los espacios en blanco" e introducir detalles apropiados sin indicaciones específicas. ExtremeTech notó que una indicación para dibujar "un pingüino con un jersey navideño" producía imágenes de pingüinos que no solo usando un jersey, sino también sombreros de Santa,[26]​ y Engadget señaló que aparecieron sombras apropiadamente colocadas en los resultados del mensaje "una pintura de un zorro sentado en un campo durante el invierno ".[13]​ Además, DALL-E exhibe una amplia comprensión de las tendencias visuales y de diseño; ExtremeTech dijo que "puede pedirle a DALL-E una imagen de un teléfono o una aspiradora de un período de tiempo específico, y entiende cómo han cambiado esos objetos".[26]​ Engadget también señaló su capacidad inusual de "comprender cómo los teléfonos y otros objetos cambian con el tiempo".[13]​ DALL-E ha sido descrito, junto con otra "IA estrecha" como AlphaGo, AlphaFold y GPT-3 como "[generando] interés en si y cómo se puede lograr la inteligencia artificial fuerte".[27]

Trascendencia[editar]

OpenAI se ha negado a publicar el código fuente de DALL-E, ni a permitir su uso fuera de una pequeña cantidad de solicitudes de muestra; [2]​ OpenAI afirmó que planeaba "analizar los impactos sociales"[25]​ y "el potencial de sesgo "en modelos como DALL-E.[16]​ A pesar de la falta de acceso, se ha discutido al menos una posible implicación de DALL-E, y varios periodistas y escritores de contenido predicen principalmente que DALL-E podría tener efectos en el campo del periodismo y la redacción de contenido. El artículo de Sam Shead en la CNBC señaló que algunos estaban preocupados por la entonces falta de un artículo publicado que describiera el sistema, y que DALL-E no había sido "de código abierto" [sic]. [16]

Si bien TechCrunch dijo "no escribas obituarios de fotografías e ilustraciones de archivo todavía",[3]​ Engadget dijo que "si se desarrolla más, DALL-E tiene un gran potencial para alterar campos como la fotografía de archivo y la ilustración, con todo lo bueno y lo malo que implica ".[13]

En un artículo de opinión de Forbes, el capitalista de riesgo Rob Toews dijo que DALL-E "presagiaba el amanecer de un nuevo paradigma de IA conocido como IA multimodal", en el que los sistemas serían capaces de "interpretar, sintetizar y traducir entre múltiples modalidades de información"; Continuó diciendo que DALL-E demostró que "cada vez es más difícil negar que la inteligencia artificial es capaz de tener creatividad". Sobre la base de las indicaciones de muestra (que incluían maniquíes vestidos y muebles), predijo que DALL-E podría ser utilizado por diseñadores de moda y diseñadores de muebles, pero que "la tecnología va a seguir mejorando rápidamente".[28]

Referencias[editar]

  1. a b c d e f g h i j Heaven, Will Douglas (5 January 2021). «This avocado armchair could be the future of AI». MIT Technology Review. Consultado el 5 January 2021. 
  2. a b c d e f g h i j k Johnson, Khari (5 January 2021). «OpenAI debuts DALL-E for generating images from text». VentureBeat. Archivado desde el original el 5 January 2021. Consultado el 5 January 2021. 
  3. a b c d e f g h i j Coldewey, Devin (5 January 2021). «OpenAI's DALL-E creates plausible images of literally anything you ask it to». Archivado desde el original el 6 January 2021. Consultado el 5 January 2021. 
  4. Grossman, Gary (16 January 2021). «OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator». VentureBeat. Archivado desde el original el 26 February 2021. Consultado el 2 March 2021. 
  5. Andrei, Mihai (8 January 2021). «This AI module can create stunning images out of any text input». ZME Science. Archivado desde el original el 29 January 2021. Consultado el 2 March 2021. 
  6. Walsh, Bryan (5 January 2021). «A new AI model draws images from text». Axios. Consultado el 2 March 2021. 
  7. Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê Khắc, Phúc; Melas, Luke; Ghosh, Ritobrata, DALL·E Mini, consultado el 29 de noviembre de 2021 .
  8. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). «Improving Language Understanding by Generative Pre-Training». OpenAI. p. 12. Archivado desde el original el 26 January 2021. Consultado el 23 January 2021. 
  9. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners 1 (8). Archivado desde el original el 6 February 2021. Consultado el 19 December 2020. 
  10. a b Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav et ál. (July 22, 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165  [cs.CL]. 
  11. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 February 2021). «Zero-Shot Text-to-Image Generation». arXiv:2101.12092  [cs.LG]. 
  12. Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). «Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models». arXiv:2102.02503  [cs.CL]. 
  13. a b c d Dent, Steve (6 January 2021). «OpenAI's DALL-E app generates images from just a description». Engadget. Archivado desde el original el 27 January 2021. Consultado el 2 March 2021. 
  14. «For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions». Synced. 5 January 2021. Archivado desde el original el 6 January 2021. Consultado el 2 March 2021. 
  15. Dunn, Thom (10 February 2021). «This AI neural network transforms text captions into art, like a jellyfish Pikachu». BoingBoing. Archivado desde el original el 22 February 2021. Consultado el 2 March 2021. 
  16. a b c d e Shead, Sam (8 January 2021). «Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab». CNBC. Consultado el 2 March 2021. 
  17. Kasana, Mehreen (7 January 2021). «This AI turns text into surreal, suggestion-driven art». Input. Archivado desde el original el 29 January 2021. Consultado el 2 March 2021. 
  18. a b Ehrenkranz, Melanie (27 January 2021). «Here's DALL-E: An algorithm learned to draw anything you tell it». NBC News. Archivado desde el original el 20 February 2021. Consultado el 2 March 2021. 
  19. a b Stove, Emma (5 February 2021). «Tardigrade circus and a tree of life — January's best science images». Nature. Archivado desde el original el 8 March 2021. Consultado el 2 March 2021. 
  20. a b Knight, Will (26 January 2021). «This AI Could Go From 'Art' to Steering a Self-Driving Car». Wired. Archivado desde el original el 21 February 2021. Consultado el 2 March 2021. 
  21. a b Metz, Rachel (2 February 2021). «A radish in a tutu walking a dog? This AI can draw it really well». CNN. Consultado el 2 March 2021. 
  22. a b Stokel-Walker, Chris (5 January 2021). «AI illustrator draws imaginative pictures to go with text captions». New Scientist. Archivado desde el original el 28 January 2021. Consultado el 4 March 2021. 
  23. a b c Wakefield, Jane (6 January 2021). «AI draws dog-walking baby radish in a tutu». British Broadcasting Corporation. Archivado desde el original el 2 March 2021. Consultado el 3 March 2021. 
  24. Markowitz, Dale (10 January 2021). «Here's how OpenAI's magical DALL-E image generator works». TheNextWeb. Archivado desde el original el 23 February 2021. Consultado el 2 March 2021. 
  25. a b Macaulay, Thomas (6 January 2021). «Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text». TheNextWeb. Archivado desde el original el 28 January 2021. Consultado el 2 March 2021. 
  26. a b c Whitwam, Ryan (6 January 2021). «OpenAI's 'DALL-E' Generates Images From Text Descriptions». ExtremeTech. Archivado desde el original el 28 January 2021. Consultado el 2 March 2021. 
  27. Nichele, Stefano (2021). «Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve». Genetic Programming and Evolvable Machines 22: 141-145. S2CID 231930573. doi:10.1007/s10710-021-09398-5. 
  28. Toews, Rob (18 January 2021). «AI And Creativity: Why OpenAI's Latest Model Matters». Forbes. Archivado desde el original el 12 February 2021. Consultado el 2 March 2021.