LAION

LAION (Large-scale Artificial Intelligence Open Network)
Tipo	Sin fines de lucro
Campo	inteligencia artificial
Industria	Inteligencia artificial
Fundador	Christoph Schuhmann; Jenia Jitsev; Richard Vencu; Robert Kaczmarczyk; Theo Coombes; Mehdi Cherti; Aarush Katta; Jan Ebert;
Productos	OpenAssistant
Sitio web	laion.ai
	[editar datos en Wikidata]

LAION (acrónimo de Large-scale Artificial Intelligence Open Network, Red abierta de inteligencia artificial a gran escala en español) es una organización alemana sin fines de lucro cuyo objetivo declarado es el de "poner a disposición del público en general modelos, conjuntos de datos y código relacionado de aprendizaje automático a gran escala". ^[1] Es conocida por publicar una serie de grandes conjuntos de datos de imágenes y subtítulos extraídos de la web que se han utilizado para entrenar una serie de modelos de texto a imagen de alto perfil, incluidos Stable Diffusion y Google Brain. ^[2] ^[3]

En febrero de 2023, LAION fue citada en la demanda de Getty Images contra Stable Diffusion como non-party.^[4] En abril de 2023, LAION fue demandada directamente por un fotógrafo alemán que quería que sus imágenes fueran eliminadas del set de entrenamiento.^[5]

El 15 de abril de 2023, LAION y sus colaboradores lanzaron al público OpenAssistant, un bot conversacional asistente de IA de código abierto.

Conjuntos de datos de imágenes[editar]

LAION ha lanzado públicamente una serie de grandes conjuntos de datos de pares de leyendas de imágenes que han sido ampliamente utilizados por los investigadores de IA. Los datos provienen de Common Crawl, un conjunto de datos rastreados de la World Wide Web. Los desarrolladores buscaron etiquetas en el html y trataron sus atributos como subtítulos. Usaron CLIP^[6] para identificar y descartar imágenes cuyo contenido no parecía coincidir con sus leyendas. ^[7] LAION no aloja el contenido de las imágenes rastreadas, sino que el conjunto de datos contiene direcciones URL que apuntan a imágenes, que los investigadores deben descargar ellos mismos. ^[8]

El primer conjunto de datos de este tipo, LAION-400M,^[9] se lanzó en agosto de 2021 y constaba de 400 millones de pares de leyendas de imágenes. Los pares se extrajeron de un subconjunto aleatorio de páginas web extraídas por Common Crawl entre 2014 y 2021. ^[10] Fue un intento de recrear el proceso utilizado por OpenAI para recopilar los 400 millones de pares de imágenes y subtítulos que usaron para entrenar el modelo CLIP: la empresa había optado por abrir el código y los pesos del modelo, pero no su conjunto de datos de entrenamiento. ^[7] Imagen, un modelo de texto a imagen anunciado por Google Brain en 2022, empleó LAION-400M en combinación con conjuntos de datos internos privados. ^[11]

Un sucesor de más de 5 mil millones de pares, LAION-5B, fue lanzado en marzo de 2022. ^[12]^[13] En el momento de su lanzamiento, era el mayor conjunto de datos de pares de pie de imagen disponible gratuitamente que existía. ^[7] Su creación fue financiada por Doodlebot, Hugging Face y Stability AI, la compañía de IA detrás de la financiación del modelo de texto a imagen Stable Diffusion, que fue entrenado en él. ^[14]

Ejemplo de entrada[editar]

A continuación se muestra un ejemplo de los metadatos asociados con una entrada en el conjunto de datos LAION-5B. El contenido de la imagen en sí, que se muestra a la derecha, no se almacena en el conjunto de datos, sino que solo se vincula a través del campo URL:^[15]

URL: https://upload.wikimedia.org/wikipedia/commons/thumb/4/45/Ammodorcas_clarkei_The_book_of_antelopes_%281894%29.jpg/275px-Ammodorcas_clarkei_The_book_of_antelopes_%281894%29.jpg
Texto: Ammodorcas clarkei El libro de los antílopes (1894).jpg
Ancho: 275 (medido en píxeles)
Altura: 311
Semejanza: 0,34972 ( similitud de coseno entre la imagen y el pie de foto, medida con CLIP. Cualquier par que tuviera valores de similitud inferiores a 0,3 se descartó del conjunto de datos. )
Marca de agua: 0,30022 (probabilidad estimada de que esta imagen tenga una marca de agua, determinada por un modelo de IA)
Punsafe: 0.0000001688 (probabilidad estimada de que esta imagen "no sea segura para el trabajo", según lo determinado por un modelo de IA)
Estética: 6,02298 (puntuación estimada que un evaluador humano asignaría a la estética de esta imagen, en una escala del 1 al 10)

Pausa en el desarrollo de la inteligencia artificial[editar]

En marzo de 2023, el Future of Life Institute (FLI), financiado -enter otros- por Elon Musk, redactó una carta en la que pedía a los principales desarrolladores de inteligencia artificial que acordaran una pausa verificable de seis meses de cualquier sistema "más poderoso que GPT-4 " y que usaran ese tiempo para instituir un marco para garantizar su seguridad; o, en su defecto, que los gobiernos intervinieran con una moratoria.

LAION se pronunció en contra de la inicitiva, argumentando que es necesaria la aceleración de la investigación y el establecimiento de un clúster informático internacional conjunto para modelos de base abierta a gran escala de inteligencia artificial. El CERN suizo podría servir como ejemplo de un modelo cooperativo a nivel internacional.^[16]^[17]

Referencias[editar]

↑ «About». LAION.ai. Consultado el 26 de septiembre de 2022.
↑ Edwards, Benj (15 de septiembre de 2022). «Have AI image generators assimilated your art? New tool lets you check». Ars Technica.
↑ Newman, Marissa; Cantrill, Aggi (24 de abril de 2023). «The Future of AI Relies on a High School Teacher’s Free Database». Bloomberg News (en inglés). Consultado el 24 de abril de 2023.
↑ «Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135». CourtListener (en inglés estadounidense). Consultado el 8 de febrero de 2023.
↑ «A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.». Vice (en inglés estadounidense). Consultado el 4 de mayo de 2023.
↑ «CLIP» (en inglés). Consultado el 16 de mayo de 2023. «CLIP (Contrastive Language-Image Pre-Training) es una red neuronal entrenada en una variedad de pares (imagen, texto). Puede ser instruido en lenguaje natural para predecir el fragmento de texto más relevante, dada una imagen, sin optimizar directamente para la tarea, de manera similar a las capacidades de disparo cero de GPT-2 y 3.»
↑ ^a ^b ^c Alford, Anthony (17 de mayo de 2022). «LAION Releases Five Billion Image-Text Pair Dataset LAION-5B». InfoQ.
↑ Edwards, Benj (21 de septiembre de 2022). «Artist finds private medical record photos in popular AI training data set». Ars Technica.
↑ Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki (3-11-2021). «LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs». Universidad Cornell. Consultado el 16 de mayo de 2023.
↑ Schuhmann, Christoph (8 de agosto de 2021). «LAION-400-Million Open Dataset». LAION blog. Consultado el 26 de septiembre de 2022.
↑ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (23 de mayo de 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487.
↑ Beaumont, Romain (3 de marzo de 2022). «LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets». LAION blog.
↑ Sebastian Grüner (13 de diciembre de 2022). «Datensatz zum KI-Training bietet fast 6 Milliarden Bilder». Golem (en alemán). Consultado el 16 de mayo de 2023. «El conjunto de datos en sí solo consta de enlaces a las imágenes y los metadatos asociados. Esta colección tiene una licencia Creative Commons gratuita, pero las imágenes en sí no la tienen. Se debe utilizar una herramienta especial para obtener el conjunto de datos con fines de capacitación. Esto requiere varios cientos de Tbytes de memoria. También hay índices para facilitar la búsqueda a través del conjunto de datos.»
↑ Wiggers, Kyle (12 de agosto de 2022). «This startup is setting a DALL-E 2-like AI free, consequences be damned». TechCrunch.
↑ «image 17024». LAION Aesthetic 6+ dataset explorer. Consultado el 26 de septiembre de 2022.
↑ «Open-source AI: LAION proposes to openly replicate GPT-4 – a public call». Heise. Consultado el 16 de mayo de 2023.
↑ Hessie Jones (19 de abril de 2023). «Amid Growing Call To Pause AI Research, LAION Petitions Governments To Keep AGI Research Open, Active And Responsible». Forbes (en inglés). Consultado el 16 de mayo de 2023. «Initiated by the founding members, the LAION petition offered a much different perspective, specifically calling out the grave implications if humanity is to solely rely on Big Tech to take on the responsibility of advancing artificial intelligence technology that remains opaque and impenetrable, and driven by profit motives. In their petition, the group proclaimed, “To harness their full potential as tools for societal betterment, it is vital to democratize research on these models and to access them, lest we face severe repercussions for our collective future.”».

[About-1] «About». LAION.ai. Consultado el 26 de septiembre de 2022.

[Ars-Trained-2] Edwards, Benj (15 de septiembre de 2022). «Have AI image generators assimilated your art? New tool lets you check». Ars Technica.

[BB_teacher-3] Newman, Marissa; Cantrill, Aggi (24 de abril de 2023). «The Future of AI Relies on a High School Teacher’s Free Database». Bloomberg News (en inglés). Consultado el 24 de abril de 2023.

[4] «Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135». CourtListener (en inglés estadounidense). Consultado el 8 de febrero de 2023.

[5] «A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.». Vice (en inglés estadounidense). Consultado el 4 de mayo de 2023.

[6] «CLIP» (en inglés). Consultado el 16 de mayo de 2023. «CLIP (Contrastive Language-Image Pre-Training) es una red neuronal entrenada en una variedad de pares (imagen, texto). Puede ser instruido en lenguaje natural para predecir el fragmento de texto más relevante, dada una imagen, sin optimizar directamente para la tarea, de manera similar a las capacidades de disparo cero de GPT-2 y 3.»

[Infoq-5b-7] Alford, Anthony (17 de mayo de 2022). «LAION Releases Five Billion Image-Text Pair Dataset LAION-5B». InfoQ.

[Ars-medical-8] Edwards, Benj (21 de septiembre de 2022). «Artist finds private medical record photos in popular AI training data set». Ars Technica.

[9] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, Aran Komatsuzaki (3-11-2021). «LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs». Universidad Cornell. Consultado el 16 de mayo de 2023.

[Laion-400m-blog-10] Schuhmann, Christoph (8 de agosto de 2021). «LAION-400-Million Open Dataset». LAION blog. Consultado el 26 de septiembre de 2022.

[imagen-paper-11] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (23 de mayo de 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487.

[Laion-5b-blog-12] Beaumont, Romain (3 de marzo de 2022). «LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets». LAION blog.

[13] Sebastian Grüner (13 de diciembre de 2022). «Datensatz zum KI-Training bietet fast 6 Milliarden Bilder». Golem (en alemán). Consultado el 16 de mayo de 2023. «El conjunto de datos en sí solo consta de enlaces a las imágenes y los metadatos asociados. Esta colección tiene una licencia Creative Commons gratuita, pero las imágenes en sí no la tienen. Se debe utilizar una herramienta especial para obtener el conjunto de datos con fines de capacitación. Esto requiere varios cientos de Tbytes de memoria. También hay índices para facilitar la búsqueda a través del conjunto de datos.»

[tc-sai-14] Wiggers, Kyle (12 de agosto de 2022). «This startup is setting a DALL-E 2-like AI free, consequences be damned». TechCrunch.

[15] «image 17024». LAION Aesthetic 6+ dataset explorer. Consultado el 26 de septiembre de 2022.

[16] «Open-source AI: LAION proposes to openly replicate GPT-4 – a public call». Heise. Consultado el 16 de mayo de 2023.

[17] Hessie Jones (19 de abril de 2023). «Amid Growing Call To Pause AI Research, LAION Petitions Governments To Keep AGI Research Open, Active And Responsible». Forbes (en inglés). Consultado el 16 de mayo de 2023. «Initiated by the founding members, the LAION petition offered a much different perspective, specifically calling out the grave implications if humanity is to solely rely on Big Tech to take on the responsibility of advancing artificial intelligence technology that remains opaque and impenetrable, and driven by profit motives. In their petition, the group proclaimed, “To harness their full potential as tools for societal betterment, it is vital to democratize research on these models and to access them, lest we face severe repercussions for our collective future.”».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]