OpenAssistant

OpenAssistant
Programadores	LAION y colaboradores
Publicación	15 de abril de 2023
Categoría de software	Modelo de lenguaje; grande.; Transformador; preentrenado; generativo.; Bot conversacional;
Licencia	Apache License 2.0
Website	open-assistant.io

OpenAssistant es un asistente basado en chat de código abierto de inteligencia artificial (AI) que comprende tareas, puede interactuar con sistemas de terceros y recuperar información dinámicamente para hacerlo.^[1]^[2] El proyecto está desarrollado por un grupo de voluntarios en colaboración con LAION. Uno de los objetivos de desarrollo incluye el acceso gratuito a modelos grandes de lenguaje que se pueden ejecutar localmente en hardware de consumo.^[1]

El proyecto está respaldado por un esfuerzo mundial de colaboración abierta distribuida que involucra a más de 13 500 voluntarios que han creado 600 000 puntos de datos generados por humanos.^[2]^[3]^[4]^[5]

Desarrollo

Los desarrolladores de OpenAssistant intentaban obtener un producto viable mínimo inicial siguiendo los tres pasos descritos en el documento de InstructGPT.^[6]^[7]

Recopilación de muestras de cumplimiento de instrucciones de alta calidad generadas por humanos (mensaje + respuesta), con el objetivo de alcanzar más de 50.000 muestras de este tipo. Luego, diseñar un proceso colaborativo para recopilar y revisar las indicaciones. Para evitar capacitaciones sobre inundación de red, temas tóxicos, spam, basura (junk data), datos de información personal, los desarrolladores tienen una tabla de clasificación para motivar a la comunidad de voluntarios, que muestra el progreso y los usuarios más activos.
Muestreo de múltiples finalizaciones para cada una de las indicaciones recopiladas. Se muestra luego aleatoriamente a los usuarios la finalización de un aviso (prompt) para clasificarlos de mejor a peor. Se deben recopilar múltiples votos de usuarios independientes para medir el acuerdo general. Los datos de clasificación recopilados se utilizarán para entrenar un modelo de recompensa.
Seguimiento de la fase de entrenamiento RLHF^{[N 1]} basada en las indicaciones y el modelo de recompensa.

A continuación, se obtendrá el modelo resultante y se continuará con el paso de muestreo completo, es decir, el segundo paso anterior para la siguiente iteración.^[1]

Estado del desarrollo

El 10 de marzo de 2023, los primeros modelos de OpenAssistant comenzaron a generar respuestas a las indicaciones de capacitación en el sitio web de OpenAssistant. Estas respuestas estaban abiertas para la clasificación del paso dos del documento InstructGPT anterior. Estos datos se introducirán en la base de datos de entrenamiento. Los modelos son específicamente iteraciones de modelos deduplicados de pythia-6.9B.^[8]^[9]

OpenAssistant se hizo público el 15 de abril de 2023.^[3]

A partir del 11 de mayo de 2023, Open Assistant apoya 40 idiomas, incluidos catalán, bávaro, esperanto y vasco .

Notas

↑ En el aprendizaje automático, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) o el aprendizaje por refuerzo a partir de las preferencias humanas es una técnica que entrena un "modelo de recompensa" directamente a partir de la retroalimentación humana y lo utiliza como una función de recompensa para optimizar la política de un agente mediante el aprendizaje por refuerzo (RL). ) a través de un algoritmo de optimización.

Referencias

↑ ^a ^b ^c Open-Assistant, LAION AI, 9 de marzo de 2023, consultado el 9 de marzo de 2023 .
↑ ^a ^b Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations -- Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].
↑ ^a ^b «OpenAssistant RELEASED! The world's best open-source Chat AI! | Open Assistant». laion-ai.github.io (en inglés). 15 de abril de 2023. Consultado el 5 de mayo de 2023.
↑ «Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development». KDnuggets (en inglés estadounidense). Consultado el 5 de mayo de 2023.
↑ Shenwai, Dhanshree Shripad (21 de abril de 2023). «Meet OpenAssistant: An open-source chat model That consists of a ~161K human-generated, human-annotated assistant-style conversation corpus, including 35 different languages». MarkTechPost (en inglés estadounidense). Consultado el 5 de mayo de 2023.
↑ Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe (4-3-2022). «Training language models to follow instructions with human feedback» [Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana]. Universidad Cornell (en inglés). Consultado el 16 de mayo de 2023.
↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et ál. (2022-03-04). «Training language models to follow instructions with human feedback». arXiv:2203.02155 [cs.CL].
↑ Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal (3-4-2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling» [Pythia: Una suite para analizar modelos de lenguaje grande a través del entrenamiento y escalamiento] (en inglés). Consultado el 16 de mayo de 2023.
↑ «EleutherAI/pythia-6.9b-deduped-v0». Consultado el 16 de mayo de 2023.

[8] En el aprendizaje automático, el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) o el aprendizaje por refuerzo a partir de las preferencias humanas es una técnica que entrena un "modelo de recompensa" directamente a partir de la retroalimentación humana y lo utiliza como una función de recompensa para optimizar la política de un agente mediante el aprendizaje por refuerzo (RL). ) a través de un algoritmo de optimización.

[Sin_nombre-20230526131929-1] Open-Assistant, LAION AI, 9 de marzo de 2023, consultado el 9 de marzo de 2023 .

[:0-2] Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations -- Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].

[:1-3] «OpenAssistant RELEASED! The world's best open-source Chat AI! | Open Assistant». laion-ai.github.io (en inglés). 15 de abril de 2023. Consultado el 5 de mayo de 2023.

[4] «Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development». KDnuggets (en inglés estadounidense). Consultado el 5 de mayo de 2023.

[5] Shenwai, Dhanshree Shripad (21 de abril de 2023). «Meet OpenAssistant: An open-source chat model That consists of a ~161K human-generated, human-annotated assistant-style conversation corpus, including 35 different languages». MarkTechPost (en inglés estadounidense). Consultado el 5 de mayo de 2023.

[6] Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe (4-3-2022). «Training language models to follow instructions with human feedback» [Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana]. Universidad Cornell (en inglés). Consultado el 16 de mayo de 2023.

[7] Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et ál. (2022-03-04). «Training language models to follow instructions with human feedback». arXiv:2203.02155 [cs.CL].

[9] Stella Biderman, Hailey Schoelkopf, Quentin Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, Sai Prashanth, Edward Raff, Aviya Skowron, Lintang Sutawika, Oskar van der Wal (3-4-2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling» [Pythia: Una suite para analizar modelos de lenguaje grande a través del entrenamiento y escalamiento] (en inglés). Consultado el 16 de mayo de 2023.

[10] «EleutherAI/pythia-6.9b-deduped-v0». Consultado el 16 de mayo de 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[N 1]

[8]

[9]