Chinchilla AI

Chinchilla AI es una familia de grandes modelos de lenguaje desarrollados por el equipo de investigación de DeepMind, presentados en marzo de 2022.^[1] Se llama "chinchilla" porque es un desarrollo adicional sobre una familia de modelos anterior llamada "Gopher" (tuzas). Ambas familias de modelos fueron entrenadas para investigar las leyes de escala de modelos grandes de lenguaje.^[2] Supera a GPT-3 en rendimiento.^[3]

Simplifica considerablemente la utilización posterior porque requiere mucha menos potencia informática para la inferencia y el ajuste. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si uno duplica el tamaño del modelo, también debe tener el doble de tokens de entrenamiento. Esta hipótesis ha sido utilizada para entrenar Chinchilla AI por DeepMind. Similar a Gopher en términos de costo, Chinchilla AI tiene parámetros 70B y cuatro veces más datos.^[4]

Chinchilla AI tiene una precisión promedio del 67,5 % en el punto de referencia MMLU (Measuring Massive Multitask Language Understanding), que es un 7 % más alto que el rendimiento de Gopher. Chinchilla AI todavía está en la fase de prueba desde el 12 de enero de 2023.^[5]

Chinchilla AI contribuye a desarrollar un paradigma de entrenamiento efectivo para grandes modelos de lenguaje autorregresivos con recursos informáticos limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de capacitación sea el doble por cada duplicación del tamaño del modelo, lo que significa que el uso de conjuntos de datos de capacitación más grandes y de mayor calidad puede generar mejores resultados en las tareas posteriores.^[6]^[7]

Arquitectura[editar]

Tanto la familia Gopher como la familia Chinchilla son modelos de aprendizaje transformador.

En particular, son esencialmente iguales a GPT-2, con diferentes tamaños y modificaciones menores. La familia Gopher usa RMSNorm en lugar de LayerNorm, codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar del optimizador Adam.

La familia Gopher contiene 6 modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. Se refieren al más grande como "Gopher" por defecto. Se aplican convenciones de nomenclatura similares para la familia Chinchilla.

La tabla muestra toda la familia Gopher:^[2]

Especificaciones del modelo para la familia Gopher
Recuento de parámetros	Capas	Número de cabezas	Tamaño de clave/valor	Dimensión interna	Tasa de aprendizaje máxima	Tamaño del lote
44M	8	16	32	512	6 × 10 ^-4	0.25M
117M	12	12	64	768	6 × 10 ^-4	0.25M
417M	12	12	128	1,536	2 × 10 ^-4	0.25M
1.4B	24	16	128	2,048	2 × 10 ^-4	0.25M
7.1B	32	32	128	4,096	1,2 × 10 ^-4	2M
Gopher 280B	80	128	128	16,384	4 × 10 ^-5	3M → 6M

La tabla compara el Chinchilla de 70 mil millones de parámetros con el Gopher 280B:^[1]

Comparación entre Chinchilla y Gopher
Recuento de parámetros	Capas	Número de cabezas	Tamaño de clave/valor	Dimensión interna	Tasa de aprendizaje máxima	Tamaño del lote
Gopher 280B	80	128	128	16,384	4 × 10 ^-5	3M → 6M
Chinchilla 70B	80	64	128	8,192	1 × 10 ^-4	1,5 millones → 3 millones

Referencias[editar]

↑ ^a ^b Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs]. Consultado el 16 de mayo de 2023.
↑ ^a ^b Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah et al. (21 de enero de 2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446 [cs]. Consultado el 16 de mayo de 2023.
↑ Alberto Romero (11-4-2022). «A New AI Trend: Chinchilla (70B) Greatly Outperforms GPT-3 (175B) and Gopher (280B)». Towards Data Science (en inglés). Consultado el 16 de mayo de 2023.
↑ «What Is Chinchilla AI: Chatbot Language Model Rival By Deepmind To GPT-3 - Dataconomy». 12 de enero de 2023.
↑ Hendrycks, Dan (14 de marzo de 2023), Measuring Massive Multitask Language Understanding, consultado el 15 de marzo de 2023 .
↑ Chaithali, G. (9 de abril de 2022). «Check Out This DeepMind's New Language Model, Chinchilla (70B Parameters), Which Significantly Outperforms Gopher (280B) and GPT-3 (175B) on a Large Range of Downstream Evaluation Tasks».
↑ Wali, Kartik (12 de abril de 2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine.

[:1-1] Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs]. Consultado el 16 de mayo de 2023.

[:0-2] Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah et al. (21 de enero de 2022). «Scaling Language Models: Methods, Analysis & Insights from Training Gopher». arXiv:2112.11446 [cs]. Consultado el 16 de mayo de 2023.

[3] Alberto Romero (11-4-2022). «A New AI Trend: Chinchilla (70B) Greatly Outperforms GPT-3 (175B) and Gopher (280B)». Towards Data Science (en inglés). Consultado el 16 de mayo de 2023.

[dataconomy-4] «What Is Chinchilla AI: Chatbot Language Model Rival By Deepmind To GPT-3 - Dataconomy». 12 de enero de 2023.

[5] Hendrycks, Dan (14 de marzo de 2023), Measuring Massive Multitask Language Understanding, consultado el 15 de marzo de 2023 .

[6] Chaithali, G. (9 de abril de 2022). «Check Out This DeepMind's New Language Model, Chinchilla (70B Parameters), Which Significantly Outperforms Gopher (280B) and GPT-3 (175B) on a Large Range of Downstream Evaluation Tasks».

[7] Wali, Kartik (12 de abril de 2022). «DeepMind launches GPT-3 rival, Chinchilla». Analytics India Magazine.

[1]

[2]

[3]

[4]

[5]

[6]

[7]