Modelos fundacionales

Un modelo fundacional es un gran modelo de inteligencia artificial entrenado en una gran cantidad de datos no etiquetados a escala (generalmente mediante aprendizaje autosupervisado) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas posteriores.^[1]^[2] Los modelos fundacionales han ayudado a lograr una gran transformación en la forma en que se construyen los sistemas de IA desde su introducción en 2018. Los primeros ejemplos de modelos fundacionales fueron grandes modelos de lenguaje pre-entrenados, incluidos BERT y GPT-3 . Usando las mismas ideas, también se han construido modelos específicos de dominio que usan secuencias de otros tipos de tokens, como códigos médicos.^[3] Posteriormente, se han producido varios modelos fundacionales multimodales, incluidos DALL-E, Flamingo,^[4] y Florence. El Centro de Investigación de Modelos Fundacionales (CRFM) del Institute for Human-Centered Artificial Intelligence de la Universidad de Stanford (HAI) popularizó el término.^[1]

Referencias[editar]

↑ ^a ^b «Introducing the Center for Research on Foundation Models (CRFM)». Stanford HAI. Consultado el 11 de junio de 2022.
↑ Goldman, Sharon (13 de septiembre de 2022). «Foundation models: 2022’s AI paradigm shift». VentureBeat (en inglés estadounidense). Consultado el 24 de octubre de 2022.
↑ Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). «Language models are an effective representation learning technique for electronic health record data». Journal of Biomedical Informatics 113: 103637. ISSN 1532-0480. PMC 7863633. PMID 33290879. doi:10.1016/j.jbi.2020.103637.
↑ Tackling multiple tasks with a single visual language model, 28 de abril de 2022, consultado el 13 de junio de 2022 .

[CRFM-1] «Introducing the Center for Research on Foundation Models (CRFM)». Stanford HAI. Consultado el 11 de junio de 2022.

[2] Goldman, Sharon (13 de septiembre de 2022). «Foundation models: 2022’s AI paradigm shift». VentureBeat (en inglés estadounidense). Consultado el 24 de octubre de 2022.

[3] Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). «Language models are an effective representation learning technique for electronic health record data». Journal of Biomedical Informatics 113: 103637. ISSN 1532-0480. PMC 7863633. PMID 33290879. doi:10.1016/j.jbi.2020.103637.

[deepmind_20220428-4] Tackling multiple tasks with a single visual language model, 28 de abril de 2022, consultado el 13 de junio de 2022 .

[1]

[2]

[3]

[4]