PanGu-Σ

De Wikipedia, la enciclopedia libre
PanGu-Σ
Información general
Tipo de programa LLM
Desarrollador Huawei
Lanzamiento inicial Marzo de 2023
Idiomas chino, inglés
Enlaces

PanGu-Σ es un modelo grande de lenguaje de la empresa Huawei, con arquitectura escasa (sparse architecture)[N 1]​ que contiene 1.085 billones de parámetros. Fue desarrollado en el marco de MindSpore 5[N 2][1]​ y entrenado en un clúster con 512 Ascend 910[N 3]aceleradores de IA con 329 mil millones de tokens[N 4]​ durante 100 días.[2][3]

Los parámetros integrados de PanGu-Σ se amplían utilizando la arquitectura de decodificador de transformador (RRE) de Random Routed Experts.[N 5]​ RRE utiliza dos niveles de enrutamiento a diferencia del MoE[4]​ tradicional. Los expertos[N 6]​ se organizan por tareas o dominios en el primer nivel, y los tokens se asignan de manera uniforme y aleatoria a cada grupo en el segundo nivel sin usar ninguna función de acceso aprendible como en MoE. Usando la arquitectura RRE, se pueden extraer submodelos de Pangu-Σ para varias aplicaciones posteriores, que incluyen conversación, traducción, producción de código e interpretación del lenguaje natural en general.[5]

Historia[editar]

El modelo de lenguaje preentrenado (Pretrained Language Model=PLM) PanGu-α de Huawei fue lanzado oficialmente en abril de 2021. Se trata de un modelo de lenguaje autorregresivo (ALM) con 200 mil millones de parámetros preentrenados en un gran corpus de texto, principalmente en chino. La arquitectura de PanGu-α se basa en transformador, que se ha utilizado ampliamente como la columna vertebral de una variedad de modelos de lenguaje previamente entrenados, como BERT y GPT. A diferencia de ellos, existe una capa de consulta adicional, desarrollada sobre las capas de transformador que tiene como objetivo inducir explícitamente el resultado esperado.[6]

El modelo fue actualizado a la versión 2.0 en abril de 2022, siendo marcados el modelo grande de programación neurolingüística, el modelo grande de visión artificial (computer vision=CV) y ​​el modelo grande para cálculos científicos (modelo meteorológico grande) como disponibles en línea. Según se informa, Pangu es el primer modelo a gran escala de preentrenamiento chino, mientras que su modelo a gran escala CV es el más grande de la industria y ofrece capacidades tanto de discriminación como de generación. Pangu-Weather es un sistema basado en aprendizaje profundo para el pronóstico del tiempo. El modelo meteorológico a gran escala proporciona pronósticos meteorológicos de segundo nivel.[7]Zidong Taichu es además el primer modelo a gran escala trimodal del mundo para mapas, texto y audio.[8][9]

Huawei ha anunciado la presentación de PanGu Chat, un nuevo modelo multimodal a gran escala que compite directamente con ChatGPT de OpenAI. El lanzamiento tendrá lugar el 7 de julio de 2023 en la Huawei Cloud Developer Conference (Conferencia de desarrolladores de la nube de Huawei).[10]

Notas[editar]

  1. Si los datos almacenados para una característica en particular contienen en su mayoría ceros, se denomina característica escasa. Si la característica se completa principalmente con valores distintos de cero, es densa. La mayoría de los algoritmos de aprendizaje automático se desarrollan para características densas
  2. MindSpore es un nuevo marco de inferencia/entrenamiento de aprendizaje profundo de código abierto que puede usarse para escenarios móviles, perimetrales y en la nube. MindSpore está diseñado para brindar una experiencia de desarrollo con un diseño amigable y una ejecución eficiente para los científicos de datos y los ingenieros algorítmicos, soporte nativo para el procesador Ascend AI y optimización conjunta de hardware y de software.
  3. El Ascend 910 es un procesador de IA que pertenece a la serie de grupos de chips Ascend-Max de Huawei. Huawei anunció las especificaciones planificadas del procesador en su evento insignia de 2018, Huawei Connect. Para operaciones de punto flotante de precisión media (FP16), Ascend 910 ofrece 256 TeraFLOPS. Para cálculos de precisión de enteros (INT8), ofrece 512 TeraOPS.
  4. Los tokens son las unidades básicas de texto o código que utiliza un LLM IA para procesar y generar lenguaje. Los tokens pueden ser caracteres, palabras, subpalabras u otros segmentos de texto o código, según el método o esquema de tokenización elegido. A los tokens se les asignan valores numéricos o identificadores, se organizan en secuencias o vectores, y se alimentan o emiten desde el modelo. Los tokens son los componentes básicos del lenguaje para el modelo. La tokenización afecta la cantidad de datos y la cantidad de cálculos que el modelo necesita procesar. Cuantos más tokens tenga que manejar el modelo, más memoria y recursos computacionales consumirá. Por lo tanto, el costo de ejecutar un modelo de por ejemplo depende del método de tokenización y del tamaño del vocabulario que utiliza el modelo, así como de la longitud y la complejidad de los textos de entrada y salida.
  5. Expertos enrutados aleatorios (RRE) es una técnica utilizada para extender el modelo de transformador denso a uno disperso,
  6. Los expertos son subredes que se especializan en diferentes aspectos del procesamiento del lenguaje natural.

Referencias[editar]

  1. «Mindspore». Gitee (en inglés). Consultado el 17 de junio de 2023. 
  2. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda et al. (19 de marzo de 2023). PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing. arXiv:2303.10845. 
  3. «The Rise of Huawei's AI Empire: PanGu-Σ and Ascend 910». Consultado el 18 de junio de 2023. 
  4. La mezcla de expertos (Mixture of experts=MoE) es una técnica de aprendizaje automático en la que se utilizan múltiples redes de expertos (aprendices) para dividir un espacio problemático en regiones homogéneas. Se diferencia de las técnicas de conjunto en que, por lo general, solo se ejecutarán uno o unos pocos modelos expertos, en lugar de combinar los resultados de todos los modelos.
  5. Aneesh Tickoo (23 de marzo de 2023). «Huawei Researchers Develop Pangu-Σ: A Large Language Model With Sparse Architecture And 1.085 Trillion Parameters». Consultado el 17 de junio de 2023. 
  6. Wei Zeng, Xiaozhe Ren, Teng Su, Hui Wang, Yi Liao, Zhiwei Wang, Xin Jiang, ZhenZhang Yang, Kaisheng Wang, Xiaoda Zhang, Chen Li, Ziyan Gong, Yifan Yao, Xinjing Huang, Jun Wang, Jianfeng Yu, Qi Guo, Yue Yu, Yan Zhang, Jin Wang, Hengtao Tao, Dasen Yan, Zexuan Yi, Fang Peng, Fangqing Jiang, Han Zhang, Lingfeng Deng, Yehong Zhang, Zhe Lin, Chao Zhang, Shaojie Zhang, Mingyue Guo, Shanzhi Gu, Gaojun Fan, Yaowei Wang, Xuefeng Jin, Qun Liu, Yonghong Tian (26 de abril de 2021). «PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation». Consultado el 18 de junio de 2023. 
  7. Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu y Qi Tian (3-11-2022). «Pangu-Weather: A 3D High-Resolution System for Fast and Accurate Global Weather Forecast» (en inglés). Consultado el 17 de junio de 2023. 
  8. Michael Furtenbach (9-6-2023). «Huawei will ChatGPT-Konkurrenten herausbringen» (en alemán). Consultado el 17 de junio de 2023. 
  9. «Chinese Academy of Sciences Unveils Next-Generation AI Model ‘Zidong Taichu 2.0’» [La Academia de Ciencias de China presenta el modelo de inteligencia artificial de próxima generación 'Zidong Taichu 2.0'] (en inglés). 16 de junio de 2023. Consultado el 17 de junio de 2023. «Unlike most existing language models that primarily focus on text, “Zidong Taichu” was designed from the ground up with a multi-modal approach at its core. It uses a variety of data types, including image, sound, and text, for unified representation and learning across modalities, achieving a “unified representation” and “mutual generation” among image, text, and voice data.» 
  10. Soumyakanti (5-6-2023). «Huawei to launch “PanGu Chat” to compete with ChatGPT». Consultado el 17 de junio de 2023.