GPT-3

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 05:58 19 oct 2020 por Machucho57 (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.

Generative Pre-trained Transformer 3, mejor conocida por sus siglas (GPT-3), es un modelo de lenguaje autorregresivo que emplea aprendizaje profundo para producir textos que simulan la redacción humana. Es la tercera generación de los modelos de predicción de lenguaje perteneciente a la serie GPT, creados por OpenAI, un laboratorio de investigación de inteligencia artificial con sede en San Francisco.[1]​ La versión completa de GPT-3 tiene una capacidad de 175 mil millones de parámetros de aprendizaje automatizado, lo cual supera la magnitud de su predecesor, GPT-2. GPT-3 fue introducido en mayo de 2020 y, hasta julio de 2020, se encontraba en fase beta.[2]​ Es parte de una tendencia en sistemas de procesamiento de lenguaje natural (NLP) basados en "representaciones de lenguaje pre-entrenadas".[3]​Previo a la liberación de GPT-3, el modelo de lenguaje más grande era Turing NLG desarrollado por Microsoft, presentado en febrero 2020, con una capacidad diez veces menor que el de GPT-3.

GPT-3 fue presentado oficialmente el 28 de mayo de 2020, a través de la publicación de la investigación realizada en coautoría por 31 investigadores e ingenieros de OpenAI y de la Universidad John Hopkins,[nota 1]​ titulada Language Models are Few-Shot Learners.[3]

La calidad de los textos generados por GPT-3 es tan alta que es difícil distinguirlos de aquellos escritos por humanos, lo cual ha generado la puntualización de los beneficios y riesgos que esto conlleva. En la publicación del 28 de mayo de 2020, los creadores advierten sobre peligros potenciales de GPT-3 al tiempo que solicitan ayuda para mitigar dichos riesgos. David Chalmers, filósofo australiano, describió a GPT-3 como "uno de los más interesantes e importantes sistemas de inteligencia artificial nunca antes creados.".[4]

Por otro lado, se ha señalado la carencia de coherencia en algunos textos debido a que el procesamiento de palabras llevado a cabo por GPT-3 es meramente sintáctico, sin atender a la semántica del texto.[5]

Contexto

Entre las arquitecturas empleados en procesamiento de lenguaje natural se encuentran las de redes neuronales que utilizan un modelo de aprendizaje profundo denominado Transformer, introducido en 2017. Los modelos GPT-n se encuentran basados en dicha arquitectura de aprendizaje profundo.[6]

El 11 de junio de 2018, los investigadores e ingenieros de OpenAI publicaron una investigación original sobre modelos generativos aplicados a sistemas de inteligencia artificial para procesamiento de lenguaje, los cuales podrían ser pre-entrenados con enormes cantidades de texto a través de bases de datos, en un proceso al que denominaron "pre-entrenamiento generativo" (generative pre-training o GP).[7]​ Como consecuencia, este modelo podía prescindir de la supervisión humana y eliminaba el tiempo invertido en el etiquetado de los datos.

En febrero 2020, Microsoft introdujo su modelo llamado Turing Natural Language Generation (T-NLG), el cual se promocionaba como como "modelo de lengua más grande nunca publicado con 17 mil millones de parámetros."[8]​ Dicho modelo tenía mejor desempeño que cualquier otro modelo de procesamiento de lenguaje en diversas tareas, como resumir textos y responder preguntas.

Capacidades

El 28 de mayo de 2020, previo al lanzamiento del modelo, un grupo de 31 ingenieros e investigadores de OpenAI publicaron un artículo donde describían a GPT-3, como un modelo de procesamiento de lenguaje de tercera generación.[3]​ Con GPT-3 el equipo había duplicado la capacidad de su predecesor, GPT-2,[9]​ haciendo del nuevo modelo el más robusto a la fecha.[3][1]​ La gran cantidad de parámetros que posee GPT-3 lo otorga un mejor nivel de precisión respecto a anteriores modelos de menor capacidad,[10]​ incluso supera en diez veces la capacidad del modelo Turing NLG de Microsoft.

Sesenta por ciento de los datos de pre-entrenamiento para GPT-3 provienen de una versión filtrada de Común Crawl consistente de 410 mil millones de elementos con codificación de pares de bytes.[3]​ Otras fuentes son WebText2 que aporta 19 mil millones de elementos que representan el 22% del total; 12 mil millones de elementos provienen de Books1, representando el 8%; 55 mil millones elementos de Books, representando 8%; y 3 mil millones de elementos de Wikipedia, representando el 3%.[3]​ GPT-3 fue entrenado con cientos de miles de millones de palabras y es capaz de codificar en CSS, JSX, Python, entre otros lenguajes de programación.[2]

En junio de 2020, OpenAI anunció que el público en general podría solicitar acceso a la API de GPT-3 a fin de ayudar a OpenAI "explorar fuerzas y límites" de esta nueva tecnología.[11][12]​ La invitación señalaba que la API posee una interfaz que permite ingresar texto y obtener un texto de respuesta, la cual permite "casi cualquier tarea de lenguaje en inglés".

Debido a que GPT-3 puede "generar notas periodísticas sobre las que evaluadores humanos tendrían problemas para distinguir de artículos creados por otros humanos", se ha descrito que este modelo de inteligencia artificial puede conllevar riesgos o aplicaciones dañinas.[13][3]​ En el artículo del 28 de mayo de 2020, los investigadores describieron algunos efectos "potencialmente nocivos" de su modelo que llegaron a identificar entre los que incluían "desinformación, spam, phishing, abuso de procesos legales y gubernamentales, creación de ensayos académicos fraudulentos y pretexting".[3]​ Los investigadores hicieron énfasis en estos peligros a fin de solicitar apoyo en la investigación para mitigar dichos posibles riesgos.[3]

Revisiones y críticas

El 29 de julio de 2020 el The New York Times publicó la revisión de Farhad Manjoo, que dijo que GPT-3 no es solo "asombrosa", "espeluznante", y "aleccionadora", sino también "un poco más que poco aterradora".[14]

La revista Wired escribió que GPT-3 estaba "provocando escalofríos por Silicon Valley ".[15]

Un artículo en el MIT Technology Review declaró que GPT-3 carece de "comprensión del mundo" por lo que realmente "no se puede confiar en lo que dice",[5]​ refiriéndose a que modelos como los de GPT-3 solo analizan la relación entre palabras (sintaxis) sin un análisis del significado de las palabras (semántica).

Notas

  1. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario

Referencias

  1. a b Shead, Sam (23 de julio de 2020). «Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab». Consultado el 4 de septiembre de 2020.  Se liberaron cuatro preimpresiones entre el 28 de mayo 28 y el 22 julio de 2020
  2. a b Bussler, Frederik (21 de julio de 2020). «Will GPT-3 Kill Coding?». Towards Data Science. Consultado el 3 de septiembre de 2020. 
  3. a b c d e f g h i Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 de julio de 2020). Language Models are Few-Shot Learners. arXiv:2005.14165. 
  4. Chalmers, David (20 de julio de 2020). «GPT-3 and General Intelligence». En Weinberg, ed. Daily Nous. Consultado el 3 de septiembre de 2020. 
  5. a b Marcus, Gary; Davis, Ernest (22 de agosto de 2020). «GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about». MIT Technology Review. Consultado el 3 de septiembre de 2020. 
  6. «Natural Language Processing». Consultado el 3 de septiembre de 2020. 
  7. Radford, Alec (11 de junio de 2018). «Improving Language Understanding by Generative Pre-Training». p. 12. Consultado el 3 de septiembre de 2020. 
  8. Sterling, Bruce (13 de febrero de 2020). «Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG)». ISSN 1059-1028. Consultado el 3 de septiembre de 2020. 
  9. Language Models are Unsupervised Multitask Learners. Consultado el 3 de septiembre de 2020. «GPT-2, is a 1.5B parameter Transformer». 
  10. Ray, Tiernan (1 de junio de 2020). «OpenAI’s gigantic GPT-3 hints at the limits of language models for AI». ZDNet. Consultado el 3 de septiembre de 2020. 
  11. «OpenAI API». OpenAI. 11 de junio de 2020. 
  12. «TechCrunch – Startup and Technology News». TechCrunch. 11 de junio de 2020. Consultado el 31 de julio de 2020. «If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.”». 
  13. «Language Models are Few-Shot Learners». arXiv:2005.14165. 22 de julio de 2020. 
  14. Manjoo, Farhad (29 de julio de 2020). «How Do You Know a Human Wrote This?». ISSN 0362-4331. Consultado el 4 de agosto de 2020. 
  15. Simonite, Tom (22 de julio de 2020). «Did a Person Write This Headline, or a Machine?». ISSN 1059-1028. Consultado el 31 de julio de 2020.