DreamBooth

De Wikipedia, la enciclopedia libre
Demostración del uso de DreamBooth para ajustar el modelo de difusión Stable Diffusion v1.5, utilizando datos de entrenamiento obtenidos de Categoría:Jimmy Wales en Wikimedia Commons. Aquí se muestran imágenes generadas algorítmicamente de Jimmy Wales, cofundador de Wikipedia, realizando ejercicios de press de banca en un gimnasio.

DreamBooth es un modelo de generación de aprendizaje profundo que se utiliza para personalizar modelos de texto a imagen existentes mediante ajustes. Fue desarrollado por investigadores de Google Research y la Universidad de Boston en 2022. Desarrolladas originalmente utilizando el modelo de texto a imagen Imagen de Google, las implementaciones de DreamBooth se pueden aplicar a otros modelos de texto a imagen, donde pueden permitir que el modelo genere resultados más ajustados y personalizados después del entrenamiento en tres a cinco imágenes de un sujeto.[1][2][3]

Tecnología[editar]

Los modelos de difusión de texto a imagen previamente entrenados, aunque a menudo son capaces de ofrecer una amplia gama de diferentes tipos de salida de imágenes, carecen de la especificidad necesaria para generar imágenes de sujetos menos conocidos y tienen una capacidad limitada para representar sujetos conocidos en diferentes situaciones y situaciones. contextos.[1]​ La metodología utilizada para ejecutar implementaciones de DreamBooth implica el ajuste del componente UNet completo del modelo de difusión utilizando unas pocas imágenes (normalmente de 3 a 5) que representan un tema específico. Las imágenes se combinan con mensajes de texto que contienen el nombre de la clase a la que pertenece el sujeto, además de un identificador único. Como ejemplo, a photograph of a [Nissan R34 GTR] car, siendo car la clase); Se aplica una pérdida de preservación previa específica de la clase para alentar al modelo a generar diversas instancias del tema en función de lo que el modelo ya está entrenado para la clase original.[1]​ Se utilizan pares de imágenes de baja y alta resolución tomadas del conjunto de imágenes de entrada para ajustar los componentes de superresolución, lo que permite mantener los detalles minuciosos del sujeto.[1]

Utilización[editar]

DreamBooth se puede utilizar para ajustar modelos como Stable Diffusion, donde puede aliviar una deficiencia común de Stable Diffusion al no poder generar adecuadamente imágenes de personas individuales específicas.[4]​ Sin embargo, este caso de uso requiere bastante VRAM y, por lo tanto, tiene un costo prohibitivo para los usuarios aficionados.[4]​ La adaptación de Stable Diffusion de DreamBooth en particular se lanza como un proyecto gratuito y de código abierto basado en la tecnología descrita en el artículo original publicado por Ruiz et. Alabama. en 2022.[5]​ Han surgido preocupaciones con respecto a la capacidad de los malos actores de utilizar DreamBooth para generar imágenes engañosas con fines maliciosos, y que su naturaleza de código abierto permite que cualquiera utilice o incluso realice mejoras en la tecnología.[6]​ Además, los artistas han expresado su aprensión con respecto a la ética del uso de DreamBooth para entrenar puntos de control de modelos que están específicamente destinados a imitar estilos artísticos específicos asociados con artistas humanos; Una de esas críticas es Hollie Mengert, ilustradora de Disney y Penguin Random House, cuyo estilo artístico se transformó en un modelo de punto de control a través de DreamBooth y se compartió en línea, sin su consentimiento.[7][8]

Referencias[editar]

  1. a b c d «DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation». arXiv:2208.12242  [cs.CV]. 2022-08-25. 
  2. Yuki Yamashita (1 de septiembre de 2022). «愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発». ITmedia Inc. (en japonés). Archivado desde el original el 31 de agosto de 2022. «米Google Researchと米ボストン大学の研究チームが開発した...数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆動型Text-to-Imageモデルだ。». 
  3. Brendan Murphy (13 de octubre de 2022). «AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?». The Conversation. Archivado desde el original el 30 de octubre de 2022. «Recently, Google has released Dream Booth, an alternative, more sophisticated method for injecting specific people, objects or even art styles into text-to-image AI systems.» 
  4. a b Ryo Shimizu (26 de octubre de 2022). «まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか?». Yahoo! News Japan (en japonés). Archivado desde el original el 26 de octubre de 2022. «Stable Diffusionは、一般に個人の写真や特定の人物を出すのが苦手だが、自分のペットや友人の写真をわずかな枚数から学習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた。». 
  5. Benj Edwards (9 de diciembre de 2022). «AI image generation tech can now create life-wrecking deepfakes with ease». Ars Technica. Archivado desde el original el 12 de diciembre de 2022. «But not long after its announcement, someone adapted the Dreambooth technique to work with Stable Diffusion and released the code freely as an open source project.» 
  6. Kevin Jiang (1 de diciembre de 2022). «These AI images look just like me. What does that mean for the future of deepfakes?». Toronto Star. Archivado desde el original el 8 de diciembre de 2022. «For example, DreamBooth could be used to copy signatures or official signage to fake documents, create misleading photos or videos of politicians, manufacture revenge porn of individuals and more... A specific issue with DreamBooth and Stable Diffusion is that they’re open source, Gupta continued. Unlike centralized AI-generation models that can impose regulations and barriers to image creation, the decentralized models like DreamBooth mean anyone can access and improve on the technology.» 
  7. Isabel Berwick (14 de diciembre de 2022). «Will AI replace human workers?». Financial Times. «Illustrator Hollie Mengert, whose artwork was used to train an AI model without her consent, spoke publicly against the practice of training AI models on artists’ work without permission.» 
  8. «Генеративные нейросети и этика: появилась модель, копирующая стиль конкретного художника». DTF (en ruso). 9 de noviembre de 2022. Archivado desde el original el 9 de noviembre de 2022. «Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не давая на то согласия)... «В первую очередь мне показалось бестактным то, что моё имя фигурировало в этом инструменте. Я ничего о нём не знала и меня об этом не спрашивали. А если бы меня спросили, можно ли это сделать, я бы не согласилась».» 

Enlaces externos[editar]