The Pile (conjunto de datos)

The Pile es un conjunto de datos diverso de código abierto de 886,03 GB de texto en inglés creado como un conjunto de datos de entrenamiento para modelos grandes de lenguaje (LLM). Fue construido por EleutherAI en 2020 y lanzado públicamente el 31 de diciembre de ese año. ^[1] Se compone de 22 conjuntos de datos más pequeños, incluidos 14 nuevos. ^[2]

Creación[editar]

La formación de LLM requiere cantidades de datos suficientemente grandes como para que, antes de la introducción de Pile, la mayoría de los datos utilizados para la formación de LLM se tomaran del Common Crawl . Sin embargo, los LLM capacitados en conjuntos de datos más diversos son más capaces de manejar una gama más amplia de situaciones después de la capacitación. ^[3] La creación de Pile fue motivada por la necesidad de un conjunto de datos lo suficientemente grande que contuviera datos de una amplia variedad de fuentes y estilos de escritura. ^[4] En comparación con otros conjuntos de datos, las principales características distintivas de Pile son que es una selección curada de datos elegidos por investigadores de EleutherAI para contener información que pensaban que los modelos de lenguaje deberían aprender y que es el único conjunto de datos de este tipo que está completamente documentado por los investigadores que lo desarrollaron. ^[5]

Contenidos y filtrado[editar]

Las inteligencias artificiales no aprenden todo lo que pueden a partir de los datos en la primera pasada, por lo que es una práctica común entrenar una IA con los mismos datos más de una vez en cada pasada por todo el conjunto de datos, lo que se denomina "época" (epoch). ^[6] A cada uno de los 22 subconjuntos de datos que componen el Pile se le asignó un número diferente de épocas según la calidad percibida de los datos. La siguiente tabla muestra el tamaño relativo de cada uno de los 22 subconjuntos de datos antes y después de multiplicarlos por el número de épocas. Los números se han convertido a GB y se utilizan asteriscos para indicar los conjuntos de datos recién introducidos.

Subconjuntos de datos de The Pile ^[4]
Componente	Tamaño original	Épocas	Tamaño efectivo
Pile-CC	243,87GB	1	243,87GB
PubMed Central *	96,93GB	2	193,86GB
Books3	108,40GB	1.5	162,61GB
OpenWebText2*	67,40GB	2	134,80GB
arXiv *	60,36 GB	2	120,71GB
GitHub *	102,18GB	1	102,18GB
Free Law *	54,92GB	1.5	82,39GB
Stack Exchange *	34,57GB	2	69,14GB
Antecedentes de la USPTO *	24,59GB	2	49,19GB
Resúmenes de PubMed *	20,68GB	2	41,37GB
Gutenberg (PG-19)	11,68GB	2.5	29,20GB
OpenSubtitles	13,94GB	1.5	20,91GB
Wikipedia (edición en inglés)	6,85GB	3	20,54 GB
Matemáticas de DeepMind	8,32 GB	2	16,63GB
Registros IRC de Ubuntu Freenode *	5,93GB	2	11,84GB
BookCorpus 2*	6,76 GB	1.5	10,15GB
EuroParl	4,93GB	2	9,85GB
Hacker News *	4,19GB	2	8,38GB
Subtítulos de YouTube *	4,01 GB	2	8,02 GB
PhilPapers *	2,56 GB	2	5,11GB
ExPorter del NIH *	2,03 GB	2	4,07 GB
Correos electrónicos de Enron	0,95GB	2	1,89GB
Total	886,03GB		1346,69GB

EleutherAI eligió los conjuntos de datos para tratar de cubrir una amplia gama de temas y estilos de escritura, incluida la escritura académica, con la que los modelos entrenados en otros conjuntos de datos tenían dificultades.

Todos los datos utilizados en Pile se tomaron de fuentes de acceso público. Luego, EleutherAI filtró el conjunto de datos en su conjunto para eliminar duplicados. Algunos subconjuntos de datos también se filtraron para control de calidad. En particular, Pile-CC es una versión modificada del Common Crawl en el que los datos se filtraron para eliminar partes que no son texto, como el formato HTML y los enlaces.

Algunos subconjuntos de datos potenciales se excluyeron por diversas razones, como el Registro del Congreso de EE. UU., que se excluyó debido a su contenido racista. ^[2]

Dentro de los subconjuntos de datos que se incluyeron, los documentos individuales no se filtraron para eliminar texto que no estuviera en inglés, sesgado o profano. Tampoco se filtró sobre la base del consentimiento, lo que significa que, por ejemplo, Pile-CC tiene los mismos problemas éticos que el propio Common Crawl. Sin embargo, EleutherAI ha documentado la cantidad de prejuicios (por motivos de género, religión y raza) y malas palabras, así como el nivel de consentimiento otorgado para cada uno de los subconjuntos de datos, lo que permite a un investigador consciente de la ética utilizar solo esas partes. del Pile que cumplen con sus propios estándares.

Usos[editar]

Pile se desarrolló originalmente para entrenar los modelos GPT-Neo de EleutherAI ^[7]^[8]^[9], pero se ha utilizado ampliamente para entrenar otros modelos, incluida la generación de lenguaje natural Megatron-Turing de Microsoft, ^[10]^[11]Meta AI. Open Pre-trained Transformers, ^[12] LLaMA, ^[13] y Galactica, ^[14] BioMedLM 2.7B de la Universidad de Stanford, ^[15] Chinese-Transformer-XL de la Academia de Inteligencia Artificial de Beijing, ^[16] y YaLM 100B de Yandex .

Además de usarse como conjunto de datos de entrenamiento, Pile también se puede usar como punto de referencia para probar modelos y calificar su desempeño en una variedad de estilos de escritura. ^[1] ^[17]

Eliminación de DMCA[editar]

El componente Books3 del conjunto de datos contiene material protegido por derechos de autor compilado de Bibliotik, un sitio web pirata. ^[18] En julio de 2023, Rights Alliance dio de baja copias de The Pile a través de avisos de DMCA. ^[19] ^[20]

Referencias[editar]

↑ ^a ^b «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». EleutherAI Website. EleutherAI. 13 de febrero de 2020. Consultado el 4 de junio de 2023.
↑ ^a ^b Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs.CL].
↑ Rosset, Corby (13 de febrero de 2020). «Turing-NLG: A 17-billion-parameter language model by Microsoft». Microsoft Blog. Microsoft. Consultado el 31 de diciembre de 2020.
↑ ^a ^b Gao, Leo (15 de junio de 2021). «The Pile Replication Code». github.com. Consultado el 6 de junio de 2023.
↑ Khan, Mehtab (13 de septiembre de 2022). «The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability». Consultado el 8 de marzo de 2023.
↑ Brownlee, Jason (10 de agosto de 2022). «Difference Between a Batch and an Epoch in a Neural Network». Consultado el 2 de junio de 2023.
↑ «GPT-Neo 125M». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.
↑ «GPT-Neo 1.3B». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.
↑ «GPT-Neo 2.7B». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.
↑ «Microsoft and Nvidia team up to train one of the world’s largest language models». 11 de octubre de 2021. Consultado el 8 de marzo de 2023.
↑ «AI: Megatron the Transformer, and its related language models». 24 de septiembre de 2021. Consultado el 8 de marzo de 2023.
↑ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona et ál. (2022-06-21). «OPT: Open Pre-trained Transformer Language Models». arXiv:2205.01068 [cs.CL].
↑ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume (2023-02-27). «LLaMA: Open and Efficient Foundation Language Models». arXiv:2302.13971 [cs.CL].
↑ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor et ál. (2022-11-16). «Galactica: A Large Language Model for Science». arXiv:2211.09085 [cs.CL].
↑ «Model Card for BioMedLM 2.7B». huggingface.co. Consultado el 5 de junio de 2023.
↑ Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin et al. (1 de enero de 2021). «WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models». AI Open 2: 65-68. doi:10.1016/j.aiopen.2021.06.001. Consultado el 8 de marzo de 2023.
↑ Lieber, Opher (1 de agosto de 2021). «Jurassic-1: Technical Details and Evaluation». AI21 Labs. Consultado el 5 de junio de 2023.
↑ «The Battle Over Books3 Could Change AI Forever». wired.com. Consultado el 13 de octubre de 2023.
↑ «Rights Alliance removes the illegal Books3 dataset used to train artificial intelligence». Rights Alliance. Consultado el 29 de agosto de 2023.
↑ «The Pile An 800GB Dataset of Diverse Text for Language Modeling». academictorrents.com. Consultado el 29 de agosto de 2023.

Enlaces externos[editar]

Sitio web de The Pile

[host_page-1] «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». EleutherAI Website. EleutherAI. 13 de febrero de 2020. Consultado el 4 de junio de 2023.

[release_paper-2] Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs.CL].

[:1-3] Rosset, Corby (13 de febrero de 2020). «Turing-NLG: A 17-billion-parameter language model by Microsoft». Microsoft Blog. Microsoft. Consultado el 31 de diciembre de 2020.

[GitHub-4] Gao, Leo (15 de junio de 2021). «The Pile Replication Code». github.com. Consultado el 6 de junio de 2023.

[auto-5] Khan, Mehtab (13 de septiembre de 2022). «The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability». Consultado el 8 de marzo de 2023.

[6] Brownlee, Jason (10 de agosto de 2022). «Difference Between a Batch and an Epoch in a Neural Network». Consultado el 2 de junio de 2023.

[7] «GPT-Neo 125M». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.

[8] «GPT-Neo 1.3B». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.

[9] «GPT-Neo 2.7B». huggingface.co. 8 de diciembre de 2022. Consultado el 7 de junio de 2023.

[10] «Microsoft and Nvidia team up to train one of the world’s largest language models». 11 de octubre de 2021. Consultado el 8 de marzo de 2023.

[11] «AI: Megatron the Transformer, and its related language models». 24 de septiembre de 2021. Consultado el 8 de marzo de 2023.

[12] Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona et ál. (2022-06-21). «OPT: Open Pre-trained Transformer Language Models». arXiv:2205.01068 [cs.CL].

[13] Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume (2023-02-27). «LLaMA: Open and Efficient Foundation Language Models». arXiv:2302.13971 [cs.CL].

[14] Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor et ál. (2022-11-16). «Galactica: A Large Language Model for Science». arXiv:2211.09085 [cs.CL].

[15] «Model Card for BioMedLM 2.7B». huggingface.co. Consultado el 5 de junio de 2023.

[16] Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin et al. (1 de enero de 2021). «WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models». AI Open 2: 65-68. doi:10.1016/j.aiopen.2021.06.001. Consultado el 8 de marzo de 2023.

[17] Lieber, Opher (1 de agosto de 2021). «Jurassic-1: Technical Details and Evaluation». AI21 Labs. Consultado el 5 de junio de 2023.

[18] «The Battle Over Books3 Could Change AI Forever». wired.com. Consultado el 13 de octubre de 2023.

[19] «Rights Alliance removes the illegal Books3 dataset used to train artificial intelligence». Rights Alliance. Consultado el 29 de agosto de 2023.

[20] «The Pile An 800GB Dataset of Diverse Text for Language Modeling». academictorrents.com. Consultado el 29 de agosto de 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]