Maxwell (microarquitectura)

De Wikipedia, la enciclopedia libre
Maxwell
Información
Tipo Microarquitectura
Desarrollador Nvidia
Fabricante TSMC 28 nm
Fecha de lanzamiento Febrero de 2014
Foto de James Clerk Maxwell, epónimo de arquitectura

Maxwell es el nombre en clave de una microarquitectura GPU desarrollada por Nvidia como sucesora de la microarquitectura Kepler. La arquitectura Maxwell se introdujo en modelos posteriores de la serie GeForce 700 y también se utiliza en la serie GeForce 800M, la serie GeForce 900 y la serie Quadro Mxxx, así como en algunos productos Jetson, todos fabricados con el proceso de 28 nm de TSMC.[1]

Los primeros productos basados en Maxwell fueron GeForce GTX 745 (OEM), GeForce GTX 750 y GeForce GTX 750 Ti. Ambos fueron lanzados el 18 de febrero de 2014, ambos con el número de código de chip GM107. Las GPU de la serie GeForce 700 anteriores habían utilizado chips Kepler con los números de código GK1xx. Las GPU Maxwell de primera generación (números de código GM10x) también se utilizan en las series GeForce 800M y Quadro Kxxx. El 18 de septiembre de 2014 se presentó una segunda generación de productos basados en Maxwell con la GeForce GTX 970 y la GeForce GTX 980, seguida de la GeForce GTX 960 el 22 de enero de 2015, la GeForce GTX Titan X el 17 de marzo de 2015 y la GeForce GTX 980 Ti el 1 de junio de 2015. La tarjeta Maxwell 2.0 final y con la especificación más baja fue la GTX950 lanzada el 20 de agosto de 2015. Estas GPU tienen números de código de chip GM20x.

Maxwell presentó un diseño mejorado de Streaming Multiprocessor (SM) que aumentó la eficiencia energética,[2]PureVideo HD de sexta y séptima generación y CUDA Compute Capability 5.2.

La arquitectura lleva el nombre de James Clerk Maxwell, el fundador de la teoría de la radiación electromagnética.

La arquitectura Maxwell se utiliza en el sistema en un chip (SOC), procesador de aplicaciones móviles, Tegra X1.

Maxwell de primera generación (GM10x)[editar]

Chip Maxwell 107 en tarjeta gráfica GTX 750 Ti sin disipador térmico.

Las GPU Maxwell de primera generación (GM107/GM108) se lanzaron como GeForce GTX 745, GTX 750/750 Ti, GTX 850M/860M (GM107) y GeForce 830M/840M (GM108). Estos nuevos chips introdujeron pocas funciones adicionales orientadas al consumidor, ya que Nvidia se centró más en aumentar la eficiencia energética de la GPU. El caché L2 se incrementó de 256 KiB en Kepler a 2 MiB en Maxwell, lo que reduce la necesidad de más ancho de banda de memoria. En consecuencia, el bus de memoria se redujo de 192 bits en Kepler (GK106) a 128 bits, lo que redujo el área de matriz, el costo y el consumo de energía.[3]

El diseño del multiprocesador de transmisión "SMX" de Kepler también se modificó y dividió, y se le cambió el nombre a "SMM" por Maxwell. La estructura del programador warp se heredó de Kepler, con las unidades de textura y los núcleos CUDA FP64 aún compartidos, pero el diseño de la mayoría de las unidades de ejecución se dividió para que cada programador warp en un SMM controle un conjunto de 32 núcleos CUDA FP32, un conjunto de 8 unidades de carga/almacenamiento y un juego de 8 unidades de funciones especiales. Esto contrasta con Kepler, donde cada SMX tenía 4 planificadores que programaban un grupo compartido de unidades de ejecución.[4]​ Este último requería una barra transversal de todo SMX que usaba energía innecesaria para permitir que se compartieran todas las unidades de ejecución.[4]​ Por el contrario, el diseño más modular de Maxwell permite una asignación de recursos más detallada y eficiente, lo que ahorra energía cuando la carga de trabajo no es óptima para los recursos compartidos. Nvidia afirma que un SMM de 128 núcleos CUDA tiene el 90% del rendimiento de un SMX de 192 núcleos CUDA, mientras que la eficiencia aumenta en un factor de 2.[3]​ Además, cada clúster de procesamiento de gráficos, o GPC, contiene hasta 4 unidades SMX en Kepler y hasta 5 unidades SMM en Maxwell de primera generación.[3]

GM107 también es compatible con CUDA Compute Capability 5.0 en comparación con 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x. El paralelismo dinámico y HyperQ, dos características de las GPU GK110/GK208, también son compatibles con toda la línea de productos de Maxwell. Maxwell también proporciona operaciones atómicas de memoria compartida nativa para enteros de 32 bits y comparación e intercambio (CAS) de memoria compartida nativa de 32 y 64 bits, que se pueden usar para implementar otras funciones atómicas.

El codificador de video de Nvidia, NVENC, se actualizó para que sea de 1,5 a 2 veces más rápido que en las GPU basadas en Kepler, lo que significa que puede codificar video a una velocidad de reproducción de seis a ocho veces mayor.[3]​ Nvidia también reclama un aumento de rendimiento de ocho a diez veces en la decodificación de video PureVideo Feature Set E debido al caché del decodificador de video, junto con aumentos en la eficiencia de la memoria. Sin embargo, H.265 no es compatible con la decodificación de hardware completa en las GPU Maxwell de primera generación, ya que depende de una combinación de decodificación de hardware y software.[3]​ Al decodificar video, se usa un nuevo estado de bajo consumo "GC5" en las GPU Maxwell para ahorrar energía.[3]

Se pensó que las GPU de Maxwell usaban la representación basada en mosaicos,[5]​ pero en realidad usan el almacenamiento en caché en mosaico.[6]

Chips[editar]

  • GM107
  • GM108

Maxwell de segunda generación (GM20x)[editar]

Fotografía de la GPU GM200 encontrada dentro de las tarjetas GeForce GTX 980 Ti

Las GPU Maxwell de segunda generación introdujeron varias tecnologías nuevas: Súper resolución dinámica,[7]​ Compresión de color Delta de tercera generación,[8]​ Muestreo de programación multipíxel,[9]​ Nvidia VXGI (Real-Time-Voxel- Global Illumination),[10]​ VR Direct,[10][11][12]​ Multi-Projection Acceleration,[8]​ Multi-Frame Sampled Anti-Aliasing (MFAA)[13]​ (sin embargo, se eliminó la compatibilidad con Coverage-Sampling Anti-Aliasing (CSAA)),[14]​ y Direct3D12 API en el nivel de función 12_1. También se agregó compatibilidad con HDMI 2.0.[15][16]

La relación entre ROP y controlador de memoria se cambió de 8:1 a 16:1.[17]​ Sin embargo, algunos de los ROP generalmente están inactivos en la GTX 970 porque no hay suficientes SMM habilitados para darles trabajo, lo que reduce su tasa máxima de llenado.[18]

El motor Polymorph responsable del teselado se actualizó a la versión 3.0 en las GPU Maxwell de segunda generación, lo que resultó en un mejor rendimiento del teselado por unidad/reloj.

Maxwell de segunda generación también tiene hasta 4 unidades SMM por GPC, en comparación con 5 unidades SMM por GPC.[17]

GM204 es compatible con CUDA Compute Capability 5.2 (en comparación con 5.0 en las GPU GM107/GM108, 3.5 en las GPU GK110/GK208 y 3.0 en las GPU GK10x).[8][17][19]

Las GPU GM20x tienen una NVENC mejorada que admite la codificación HEVC y agrega compatibilidad con las resoluciones de codificación H.264 a 1440p/60FPS y 4K/60FPS (en comparación con NVENC en las GPU GM10x de primera generación de Maxwell que solo admitían la codificación H.264 1080p/60FPS).[12]

Después de las quejas de los consumidores,[20]​ Nvidia reveló que puede deshabilitar unidades individuales, cada una con 256 KB de caché L2 y 8 ROP, sin deshabilitar controladores de memoria completos.[21]​ Esto tiene el costo de dividir el bus de memoria en segmentos de alta y baja velocidad a los que no se puede acceder al mismo tiempo para lecturas, porque la unidad L2/ROP que administra ambos controladores GDDR5 comparte el canal de retorno de lectura y el bus de datos de escritura. entre los controladores GDDR5. Esto hace imposible la lectura simultánea de ambos controladores GDDR5 o la escritura simultánea en ambos controladores GDDR5.[21]​ Esto se usa en la GeForce GTX 970, que por lo tanto puede describirse como que tiene 3,5 GB en un segmento de alta velocidad en un bus de 224 bits y 512 MB en un segmento de baja velocidad en un bus de 32 bits.[21]​ Todavía se puede alcanzar la velocidad máxima de una GPU de este tipo, pero solo se puede alcanzar la cifra de velocidad máxima si un segmento ejecuta una operación de lectura mientras que el otro segmento ejecuta una operación de escritura.[21]

Chips[editar]

  • GM200
  • GM204
  • GM206

Rendimiento[editar]

La potencia teórica de procesamiento de precisión simple de una GPU Maxwell en FLOPS se calcula como 2 (operaciones por instrucción FMA por núcleo CUDA por ciclo) × número de núcleos CUDA × velocidad de reloj del núcleo (en Hz).

La potencia teórica de procesamiento de doble precisión de una GPU Maxwell es 1/32 del rendimiento de precisión simple (que se ha señalado como muy bajo en comparación con la generación anterior de Kepler).[22]

Sucesor[editar]

El sucesor de Maxwell tiene el nombre en clave de Pascal.[23]​ La arquitectura Pascal cuenta con memoria unificada de mayor ancho de banda y NVLink.[23]

Véase también[editar]

Referencias[editar]

  1. «NVIDIA GeForce GTX 880 and GTX 870 coming this fall». 17 de junio de 2014. 
  2. «5 Things You Should Know About the New Maxwell GPU Architecture». 21 de febrero de 2014. 
  3. a b c d e f Smith, Ryan (18 de febrero de 2014). «The NVIDIA GeForce GTX 750 Ti and GTX 750 Review: Maxwell Makes Its Move». AnandTech. Archivado desde el original el 18 de febrero de 2014. Consultado el 18 de febrero de 2014. 
  4. a b Ryan Smith, Ganesh T S. «Maxwell: Designed For Energy Efficiency - The NVIDIA GeForce GTX 750 Ti and GTX 750 Review: Maxwell Makes Its Move». 
  5. Kanter, David (1 de agosto de 2016). «Tile-based Rasterization in Nvidia GPUs». Real World Technologies. Consultado el 1 de abril de 2016. 
  6. «On NVIDIA's Tile-Based Rendering». Tech Power Up. 1 de marzo de 2017. Consultado el 9 de mayo de 2020. 
  7. «Dynamic Super Resolution Improves Your Games With 4K-Quality Graphics On HD Monitors». www.nvidia.com. 
  8. a b c «Archived copy». Archivado desde el original el 21 de julio de 2017. Consultado el 19 de septiembre de 2014. 
  9. «NVIDIA BatteryBoost: Ditch the Brick». NVIDIA. 
  10. a b «GeForce Articles, Guides, Gaming News, Featured Stories». www.nvidia.com. 
  11. «How Maxwell's VR Direct Brings Virtual Reality Gaming Closer to Reality». The Official NVIDIA Blog. 
  12. a b Ryan Smith. «Display Matters: HDMI 2.0, HEVC, & VR Direct - The NVIDIA GeForce GTX 980 Review: Maxwell Mark 2». 
  13. «Multi-Frame Sampled Anti-Aliasing Delivers Better Performance To Maxwell Gamers». www.nvidia.com. 
  14. «New nVidia Maxwell chips do not support fast CSAA». Archivado desde el original el 7 de mayo de 2019. Consultado el 28 de marzo de 2023. 
  15. «GeForce RTX 20 Series Graphics Cards and Laptops». NVIDIA. 
  16. Ryan Smith. «The NVIDIA GeForce GTX 980 Review: Maxwell Mark 2». 
  17. a b c Ryan Smith. «Maxwell 2 Architecture: Introducing GM204 - The NVIDIA GeForce GTX 980 Review: Maxwell Mark 2». 
  18. «Here's another reason the GeForce GTX 970 is slower than the GTX 980». The Tech Report. 
  19. «Maxwell: The Most Advanced CUDA GPU Ever Made». Parallel Forall. 19 de septiembre de 2014. 
  20. Geoffrey Tim (3 de diciembre de 2015). «Nvidia's GTX970 has a rather serious memory allocation bug». Lazygamer.net. 
  21. a b c d Ryan Smith. «Diving Deeper: The Maxwell 2 Memory Crossbar & ROP Partitions - GeForce GTX 970: Correcting The Specs & Exploring Memory Allocation». 
  22. Smith, Ryan (17 de marzo de 2015). «The NVIDIA GeForce GTX Titan X Review». AnandTech. p. 2. Consultado el 6 de diciembre de 2015. «...puny native FP64 rate of just 1/32». 
  23. a b «NVIDIA Updates GPU Roadmap; Announces Pascal». The Official NVIDIA Blog.