Diferencia entre revisiones de «Acelerador de IA»

Contenido eliminado Contenido añadido

En renglón

Revisión del 13:19 28 jul 2019

Un acelerador de IA es una clase de microprocesador^[1] o sistema de computadora, diseñado como aceleración de hardware para aplicaciones de inteligencia artificial, especialmente para redes neuronales artificiales, visión de máquina y aprendizaje de máquina. Las aplicaciones típicas incluyen algoritmos para robots, internet de cosas y otras tareas con grande uso de datos o conducidas por sensores. Son a menudo diseños manycore y generalmente foco en aritmética de precisión baja, novel arquitecturas de fluxo de dados o en-capacidad de informática de la memoria. Vários términos específicos hechos por vendedores existen para dispositivos en esta categoría, y es una tecnología emergente sin un design dominante. Los aceleradores de AI pueden ser encontrados en muchos dispositivos como smartphones, tablets, y computadoras en todas partes el mundo.^[2]^[3]^[4]

Historia de aceleración de IA

Sistemas de computadoras tienen frecuentemente complementado el CPU con aceleradores de propósito especial para especializó tareas, sabidos como coprocesadores. Notables circuitos integrados de aplicación específica de unidades de hardware incluyen tarjetas de vídeo para gráficos, tarjetas de sonido, el gráfico que procesa unidades y procesadores de señal digital. A medida que as cargas de trabalho do deep learning e da inteligencia artificial tienem aumentado en prominencia en el @2010s, unidades de hardware especializadas fueron desarrolladas o adaptados de otros productos para acelerar estas tareas.

Intentos tempranos

Tan temprano cuando 1993, procesadores digital de señales fueron utilizados como aceleradores de red neuronal p. ej. para acelerar software de reconocimiento óptico de carácter. En el @1990s, había también intentos para crear paralelo alto-throughput sistemas para workstations apuntados en varias aplicaciones, incluyendo simulacros de red neuronal. FPGA-Basó los aceleradores eran también primero explorados en el @1990s para ambas inferencia y formación. ANNA era un neuronal neto CMOS el acelerador desarrollado por Yann LeCun.^[5]^[6]^[7]^[8]^[9]^[10]^[11]

Computación heterogénea

La computación heterogénea refiere a incorporar un número de procesadores especializados en un sistema solo, o incluso un chip solo, cada optimizado para un tipo concreto de tarea. Las arquitecturas como el microprocesador de célula tienen características significativamente overlapping con aceleradores de IA que incluyen: soporte para aritmética de precisión baja empaquetada, dataflow arquitectura, y priorizando 'throughput' encima latencia. El microprocesador de Célula^[12] era posteriormente aplicado a un número de las tareas que incluyen IA.^[13]^[14]^[15]^[16]^[17]^[18]

En el @2000s, CPUs también obtenido cada vez más ancho SIMD unidades, conducidos por vídeo y gaming workloads; así como soporte para dato de precisión bajo empaquetado tipos.^[19]

Uso de GPU

Unidades de processamento gráfico o GPUs está especializado hardware para la manipulación de imágenes y cálculo de propiedades de imagen local. La base matemática de imagen y redes neuronales la manipulación es similar, embarrassingly las tareas paralelas que implican matrices, dirigiendo GPUs para devenir cada vez más utilizado para la máquina que aprende tareas. A 2016 2016[actualización], GPUs es popular para trabajo de AI, y continúan evolucionar en una dirección para facilitar aprendizaje profundo, ambos para entrenar e inferencia en dispositivos como vehículo autónomo. GPU Desarrolladores como Nvidia NVLink está desarrollando adicional connective capacidad para la clase de dataflow workloads AI beneficios de. Cuando GPUs ha sido cada vez más aplicado a aceleración de IA, GPU los fabricantes han incorporado red neuronal hardware concreto a más allá acelerar estas tareas. Núcleos de tensor están pretendidos para solicitar la formación de redes neuronales.^[20]^[21]^[22]^[23]^[24]^[25]^[26]^[27]^[27]

Uso de FPGAs

Marcos de aprendizaje profundo todavía están evolucionando, haciéndolo duros de diseñar hardware hecho de encargo. Reconfigurable Dispositivos como campo-variedades de puerta programable (FPGA) lo hace más fácil de evolucionar hardware, marcos y software junto a cada otro.^[9]^[10]^[28]

Microsoft ha utilizado FPGA chips para acelerar inferencia. La aplicación de FPGAs a AI la aceleración motivó Intel para adquirir Altera con el objetivo de integrar FPGAs en servidor CPUs, el cual sería capaz de acelerar AI así como tareas de propósito general.^[29]^[30]^[31]

Aparición de dedicado acelerador de IA ASICs

Mientras GPUs y FPGAs actúa lejos mejor que CPUs para tareas relacionadas a IA, un factor de hasta 10 en eficacia puede ser obtenida con un diseño más concreto, vía una aplicación-circuito integrado concreto (ASIC).[La cita necesitada] Estos aceleradores emplean estrategias como uso de memoria optimizada [la cita necesitada] y el uso de aritmética de precisión más baja para acelerar cálculo y aumento throughput(tasa de transferencia efectiva) de computación. Algunos adoptaron abajo-precisión formatos de coma flotante utilizaron la aceleración de AI son media-precisión y el bfloat16 formato de coma flotante. ^[32]^[33] ^[34]^[35]^[36]^[37]^[38]^[39]^[40]^[41]^[42]

Arquitecturas de computacíon in-memory

En junio 2017, investigadores de IBM anunciaron una arquitectura en contraste al Von Neumann arquitectura basó encima en-informática de memoria y fase-variedades de memoria del cambio aplicaron a temporal detección de correlación, pretendiendo generalizar la aproximación a informática heterogénea y masivamente sistemas paralelos. En octubre 2018, investigadores de IBM anunciaron una arquitectura basó encima en-procesamiento de memoria y modeled en el cerebro humano synaptic red para acelerar redes neuronales profundas. El sistema está basado encima fase-variedades de memoria del cambio.^[43]^[44]^[45]

Nomenclatura

En 2016, el campo sigue en flux y los vendedores están empujando su plazo de marketing propio para qué cantidades a un "acelerado de IA", en la esperanza que sus diseños y APIs devendrá el design dominante. no hay ningún consenso en la frontera entre estos dispositivos, ni la forma exacta que tomarán; aun así varios ejemplos claramente apuntan para llenar este espacio nuevo, con una cantidad justa de overlap en capacidades.

Antiguamente cuándo aceleradores de gráfico del consumidor emergieron, la industria finalmente adoptada Nvidia self-plazo asignado, "el GPU", cuando el sustantivo colectivo para "aceleradores de gráficos", el cual había tomado muchas formas antes de resolver en una tubería global que implementa un modelo presentado por Directo3D.^[46]

Aplicaciones potenciales

Vehículos autónomos: Nvidia ha apuntado su Drive-PX-series bordos en este espacio.^[47]
Robots militares
Robots agrícolas, por ejemplo pesticide-libres weed control.^[48]
Control de voz, p. ej. en teléfonos celulares, un objetivo para Qualcomm Zeroth.^[49]
Traducción automática
Vehículos aéreos no tripulado, p. ej. sistemas de navegación, p. ej. el Movidius Miríada 2 ha sido demostrado exitosamente guiando autónomo drones.^[50]
Robots industriales, aumentando la gama de tareas que puede ser automatizado, por añadir adaptabilidad a situaciones variables.
Assistencia sanitaria, para asistir con diagnosis
Motores de búsqueda, aumentando la eficacia de energía de centros de datos y capacidad de utilizar cada vez más adelantaron consultas.
Procesamiento de lengua natural

Ve también

Ordenador cognitivo
Ingeniería Neuromórfica
Rede neuronal física
Aceleración de hardware

Referencias

↑ «Intel unveils Movidius Compute Stick USB AI Accelerator». 21 de julio de 2017. Archivado desde el original el August 11, 2017. Consultado el August 11, 2017.
↑ «Inspurs unveils GX4 AI Accelerator». 21 de junio de 2017.
↑ «Google Developing AI Processors». Google using its own AI accelerators.
↑ "A Survey of ReRAM-based Architectures for Processing-in-memory and Neural Networks", S. Mittal, Machine Learning and Knowledge Extraction, 2018
↑ «convolutional neural network demo from 1993 featuring DSP32 accelerator».
↑ «design of a connectionist network supercomputer».
↑ «The end of general purpose computers (not)». This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)
↑ Ramacher, U.; Raab, W.; Hachmann, J.A.U.; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Glass, J. et al. (1995). Proceedings of 9th International Parallel Processing Symposium. pp. 774-781. ISBN 978-0-8186-7074-9. doi:10.1109/IPPS.1995.395862.
↑ ^a ^b «Space Efficient Neural Net Implementation».
↑ ^a ^b «A Generic Building Block for Hopfield Neural Networks with On-Chip Learning». 1996.
↑ Application of the ANNA Neural Network Chip to High-Speed Character Recognition
↑ «Synergistic Processing in Cell's Multicore Architecture». 2006.
↑ De Fabritiis, G. (2007). «Performance of Cell processor for biomolecular simulations». Computer Physics Communications 176 (11–12): 660-664. doi:10.1016/j.cpc.2007.02.107.
↑ Video Processing and Retrieval on Cell architecture.
↑ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). 2006 IEEE Symposium on Interactive Ray Tracing. pp. 15-23. ISBN 978-1-4244-0693-7. doi:10.1109/RT.2006.280210.
↑ «Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals».
↑ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008 5th IEEE Consumer Communications and Networking Conference. pp. 1030-1034. ISBN 978-1-4244-1457-4. doi:10.1109/ccnc08.2007.235.
↑ Duan, Rubing; Strey, Alfred (2008). Euro-Par 2008 – Parallel Processing 5168. pp. 665-675. ISBN 978-3-540-85450-0. doi:10.1007/978-3-540-85451-7_71.
↑ «Improving the performance of video with AVX». 8 de febrero de 2012.
↑ «microsoft research/pixel shaders/MNIST».
↑ «how the gpu came to be used for general computation».
↑ «imagenet classification with deep convolutional neural networks».
↑ «nvidia driving the development of deep learning». 17 de mayo de 2016.
↑ «nvidia introduces supercomputer for self driving cars». 6 de enero de 2016.
↑ «how nvlink will enable faster easier multi GPU computing». 14 de noviembre de 2014.
↑ "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019
↑ ^a ^b Harris, Mark (11 de mayo de 2017). «CUDA 9 Features Revealed: Volta, Cooperative Groups and More». Consultado el August 12, 2017.
↑ «FPGA Based Deep Learning Accelerators Take on ASICs». The Next Platform. 23 de agosto de 2016. Consultado el 7 de septiembre de 2016.
↑ «microsoft extends fpga reach from bing to deep learning». 27 de agosto de 2015.
↑ Chung, Eric; Strauss, Karin; Fowers, Jeremy; Kim, Joo-Young; Ruwase, Olatunji; Ovtcharov, Kalin (23 de febrero de 2015). «Accelerating Deep Convolutional Neural Networks Using Specialized Hardware». Microsoft Research.
↑ "A Survey of FPGA-based Accelerators for Convolutional Neural Networks", Mittal et al., NCAA, 2018
↑ «Google boosts machine learning with its Tensor Processing Unit». 19 de mayo de 2016. Consultado el 13 de septiembre de 2016.
↑ «Chip could bring deep learning to mobile devices». www.sciencedaily.com. 3 de febrero de 2016. Consultado el 13 de septiembre de 2016.
↑ «Deep Learning with Limited Numerical Precision».
↑ MISSING LINK..
↑ Khari Johnson (23 de mayo de 2018). «Intel unveils Nervana Neural Net L-1000 for accelerated AI training». VentureBeat. Consultado el 23 de mayo de 2018. «...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.»
↑ Michael Feldman (23 de mayo de 2018). «Intel Lays Out New Roadmap for AI Portfolio». TOP500 Supercomputer Sites. Consultado el 23 de mayo de 2018. «Intel plans to support this format across all their AI products, including the Xeon and FPGA lines».
↑ Lucian Armasu (23 de mayo de 2018). «Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019». Tom's Hardware. Consultado el 23 de mayo de 2018. «Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.»
↑ «Available TensorFlow Ops | Cloud TPU | Google Cloud». Google Cloud. Consultado el 23 de mayo de 2018. «This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.»
↑ Elmar Haußmann (26 de abril de 2018). «Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50». RiseML Blog. Archivado desde el original el April 26, 2018. Consultado el 23 de mayo de 2018. «For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.»
↑ Tensorflow Authors (28 de febrero de 2018). «ResNet-50 using BFloat16 on TPU». Google. Consultado el 23 de mayo de 2018. Uso incorrecto de la plantilla enlace roto (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (28 de noviembre de 2017), TensorFlow Distributions, Bibcode:2017arXiv171110604D, arXiv:1711.10604, Accessed 2018-05-23, «All operations in TensorFlow Distributions are numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts» .
↑ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). «Temporal correlation detection using computational phase-change memory». Nature Communications 8. doi:10.1038/s41467-017-01481-9.
↑ «A new brain-inspired architecture could improve how computers handle data and advance AI». 3 de octubre de 2018. Consultado el 5 de octubre de 2018.
↑ MISSING LINK..
↑ «NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256».
↑ «drive px».
↑ «design of a machine vision system for weed control». Archivado desde el original el June 23, 2010. Consultado el June 17, 2016.
↑ «qualcomm research brings server class machine learning to every data devices». October 2015.
↑ «movidius powers worlds most intelligent drone». 16 de marzo de 2016.

Enlaces externos

[1] «Intel unveils Movidius Compute Stick USB AI Accelerator». 21 de julio de 2017. Archivado desde el original el August 11, 2017. Consultado el August 11, 2017.

[2] «Inspurs unveils GX4 AI Accelerator». 21 de junio de 2017.

[3] «Google Developing AI Processors». Google using its own AI accelerators.

[MEMRISTOR_PIM-4] "A Survey of ReRAM-based Architectures for Processing-in-memory and Neural Networks", S. Mittal, Machine Learning and Knowledge Extraction, 2018

[5] «convolutional neural network demo from 1993 featuring DSP32 accelerator».

[krste-6] «design of a connectionist network supercomputer».

[krste_general_purpose-7] «The end of general purpose computers (not)». This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)

[8] Ramacher, U.; Raab, W.; Hachmann, J.A.U.; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Glass, J. et al. (1995). Proceedings of 9th International Parallel Processing Symposium. pp. 774-781. ISBN 978-0-8186-7074-9. doi:10.1109/IPPS.1995.395862.

[fpga-inference-9] «Space Efficient Neural Net Implementation».

[fpga-training-10] «A Generic Building Block for Hopfield Neural Networks with On-Chip Learning». 1996.

[11] Application of the ANNA Neural Network Chip to High-Speed Character Recognition

[cell-12] «Synergistic Processing in Cell's Multicore Architecture». 2006.

[13] De Fabritiis, G. (2007). «Performance of Cell processor for biomolecular simulations». Computer Physics Communications 176 (11–12): 660-664. doi:10.1016/j.cpc.2007.02.107.

[14] Video Processing and Retrieval on Cell architecture.

[15] Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). 2006 IEEE Symposium on Interactive Ray Tracing. pp. 15-23. ISBN 978-1-4244-0693-7. doi:10.1109/RT.2006.280210.

[16] «Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals».

[17] Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008 5th IEEE Consumer Communications and Networking Conference. pp. 1030-1034. ISBN 978-1-4244-1457-4. doi:10.1109/ccnc08.2007.235.

[18] Duan, Rubing; Strey, Alfred (2008). Euro-Par 2008 – Parallel Processing 5168. pp. 665-675. ISBN 978-3-540-85450-0. doi:10.1007/978-3-540-85451-7_71.

[19] «Improving the performance of video with AVX». 8 de febrero de 2012.

[20] «microsoft research/pixel shaders/MNIST».

[21] «how the gpu came to be used for general computation».

[22] «imagenet classification with deep convolutional neural networks».

[23] «nvidia driving the development of deep learning». 17 de mayo de 2016.

[24] «nvidia introduces supercomputer for self driving cars». 6 de enero de 2016.

[25] «how nvlink will enable faster easier multi GPU computing». 14 de noviembre de 2014.

[26] "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019

[CUDA9-27] Harris, Mark (11 de mayo de 2017). «CUDA 9 Features Revealed: Volta, Cooperative Groups and More». Consultado el August 12, 2017.

[28] «FPGA Based Deep Learning Accelerators Take on ASICs». The Next Platform. 23 de agosto de 2016. Consultado el 7 de septiembre de 2016.

[29] «microsoft extends fpga reach from bing to deep learning». 27 de agosto de 2015.

[30] Chung, Eric; Strauss, Karin; Fowers, Jeremy; Kim, Joo-Young; Ruwase, Olatunji; Ovtcharov, Kalin (23 de febrero de 2015). «Accelerating Deep Convolutional Neural Networks Using Specialized Hardware». Microsoft Research.

[CNNFPGAsurvey-31] "A Survey of FPGA-based Accelerators for Convolutional Neural Networks", Mittal et al., NCAA, 2018

[32] «Google boosts machine learning with its Tensor Processing Unit». 19 de mayo de 2016. Consultado el 13 de septiembre de 2016.

[33] «Chip could bring deep learning to mobile devices». www.sciencedaily.com. 3 de febrero de 2016. Consultado el 13 de septiembre de 2016.

[lowprecision-34] «Deep Learning with Limited Numerical Precision».

[35] MISSING LINK..

[36] Khari Johnson (23 de mayo de 2018). «Intel unveils Nervana Neural Net L-1000 for accelerated AI training». VentureBeat. Consultado el 23 de mayo de 2018. «...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.»

[top5_Inte-37] Michael Feldman (23 de mayo de 2018). «Intel Lays Out New Roadmap for AI Portfolio». TOP500 Supercomputer Sites. Consultado el 23 de mayo de 2018. «Intel plans to support this format across all their AI products, including the Xeon and FPGA lines».

[toms_Inte-38] Lucian Armasu (23 de mayo de 2018). «Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019». Tom's Hardware. Consultado el 23 de mayo de 2018. «Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.»

[clou_Avai-39] «Available TensorFlow Ops | Cloud TPU | Google Cloud». Google Cloud. Consultado el 23 de mayo de 2018. «This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.»

[blog_Comp-40] Elmar Haußmann (26 de abril de 2018). «Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50». RiseML Blog. Archivado desde el original el April 26, 2018. Consultado el 23 de mayo de 2018. «For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.»

[gith_tens-41] Tensorflow Authors (28 de febrero de 2018). «ResNet-50 using BFloat16 on TPU». Google. Consultado el 23 de mayo de 2018. Uso incorrecto de la plantilla enlace roto (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[arxiv_1711.10604-42] Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (28 de noviembre de 2017), TensorFlow Distributions, Bibcode:2017arXiv171110604D, arXiv:1711.10604, Accessed 2018-05-23, «All operations in TensorFlow Distributions are numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts» .

[43] Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). «Temporal correlation detection using computational phase-change memory». Nature Communications 8. doi:10.1038/s41467-017-01481-9.

[44] «A new brain-inspired architecture could improve how computers handle data and advance AI». 3 de octubre de 2018. Consultado el 5 de octubre de 2018.

[45] MISSING LINK..

[46] «NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256».

[47] «drive px».

[48] «design of a machine vision system for weed control». Archivado desde el original el June 23, 2010. Consultado el June 17, 2016.

[49] «qualcomm research brings server class machine learning to every data devices». October 2015.

[50] «movidius powers worlds most intelligent drone». 16 de marzo de 2016.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]