Chip Nvidia Volta GV100, rendimiento insuperable

Posted 21 septiembre, 2017

Nos llega nueva información sobre la arquitectura Volta de Nvidia, de la cual se espera el anuncio de su llegada al mercado de consumo en algún momento del próximo año, con una fecha todavía sin confirmar.

La nueva arquitectura Volta estará construida bajo un nodo FinFET de 12nm, el chip GV100 funciona a una frecuencia base de 1370 MHz, (vs 1328 MHz en el chip Pascal GP100), pero curiosamente alcanzando solo 1455 MHz con el Boost (vs 1480 MHz en el chip Pascal GP100), compuesto por 6 GPCs (Graphics Processing Clusters), cuenta con un total de 84 unidades Streaming Multiprocessor Volta, 42 TPCs (con 2 SMs en cada uno de ellos), los 84 SMs se componen por 64 procesadores CUDA, lo que nos da un total de 5376 procesadores CUDA dentro de cada DIE (vs 3840 CUDAS en GP100). Estos 5376 procesadores CUDA cuentan con soporte para instrucciones de programación FP32 e INT32, mientras que solo la mitad de ellos, 2688 CUDAS, podrán utilizarse para instrucciones de doble precisión FP64, las características del chip Volta GV100 se completan con 672 procesadores Tensor, gracias a los que el chip GV100 alcanza 120 TFLOPS en técnicas de aprendizaje profundo basadas en operaciones FP32 (vs 10 TFLOPS en GP100), junto a 336 unidades de textura y soporte NVLINK 2.0.

Para su memoria Nvidia ha añadido 8 controladoras de memoria de 512 bits cada una, lo que nos da un ancho de bus de 4096 bits gracias a sus 16 Gb de memoria HBM2 funcionando a una frecuencia de 878 MHz (1756 MHz efectivos), en lo referente a su ancho de banda llega a los 900 GB/s (vs 720 GB/s en GP100) acercándose bastante al limite teórico de la memoria HBM2 con un 1 Tb/s (1024 GB/s) como máximo, cada controladora de memoria esta conectada a 768 KB de memoria caché de nivel 2 (L2), entregando un total de 6 Mb de memoria caché L2 para todo el chip GV100.

El pase de diapositivas requiere JavaScript.

A esta nueva arquitectura Volta la acompañan interesantes características que la diferencian de la anterior arquitectura Pascal, entre ellas tenemos:

Nuevos núcleos Tensor FP16 / FP32 de precisión mixta, diseñados para calcular la aritmética en la matriz del aprendizaje profundo.
Memoria caché de nivel 1 (L1) mejorada para un mayor rendimiento y una menor latencia (L0?).
Conjunto de instrucciones simplificado para una decodificacion mas sencilla, reduciendo la latencia de las instrucciones.
Mayor frecuencia con mayor eficiencia energética.

Este primer chip Volta esta diseñado para soportar cargas de trabajo bajo computación de alto rendimiento (HPC), desarrollo en inteligencia artificial (AI), y gráficos mas complejos desde el punto de vista profesional, al igual que el chip GP100, no es un chip que este destinado a llegar a tarjetas gráficas para el mercado de consumo gaming, por lo que para nosotros los usuarios de a pie un futuro chip GV102 quizás sea el que debería importarnos, teniendo en cuenta el GP102 dando vida a la GTX 1080Ti, siendo versiones recortadas y con cambios significativos comparados con los chips completos GP100 y GV100, aunque no deja de ser interesante comprobar las diferencias entre su nueva arquitectura Volta comparada con su anterior arquitectura Pascal dentro del sector profesional, un previo anuncio de lo que se nos viene encima por parte de Nvidia.

El pase de diapositivas requiere JavaScript.

Recientemente Nvidia ha comenzado el envió de su nuevo chip GV100 a clientes de todo el mundo y con ello empiezan a llegar las primeras pruebas de su rendimiento real, gracias a la base de datos GeekBench 4 podemos ver un sistema NVIDIA DGX_1. El DGX-1 es lo que Nvidia nos presenta como un mini super ordenador dentro de un chasis compacto, donde se encuentran nada menos que 8 chips GV100 , con un total de 40960 procesadores CUDA, 960 procesadores Tensor y 128 Gb de memoria HBM2. Este sistema también cuenta con 2 procesadores Intel Xeon E5-2698 V4, con 20 núcleos y 40 hilos cada uno funcionando a 2,2 GHz, además al conjunto le acompañan 512 GB de RAM DDR4 y 4 SSD de 1,92 TB cada uno, montados en RAID 0, para el sistema de almacenamiento y una conexión de red dual 10 GbE con hasta 4 IB EDR, todo ello alimentado por una fuente de alimentación de 3200W, no hace falta decir que este sistema es capaz de entregar una gran cantidad de potencia, se dice de el que es capaz de sustituir a 400 servidores y su precio asciende hasta los 149.000 $.

En términos de rendimiento puro este sistema alcanza un 132% mas de rendimiento bajo Linux de 64 bits con la API CUDA comparado con el sistema 7XLP100, el cual cuenta con 8 GPUs Tesla P100 conectadas mediante PCI-Express, cada una de ellas con un chip GP100 completo en su interior, mientras que bajo la API OpenCL alcanza un 72,7% mas de rendimiento comparada con una estación de trabajo HP Z8 G4, la cual cuenta con nada menos que 9 GPUs Quadro GP100, que son básicamente una especificación de las Tesla P100 para un distinto sector profesional.

El pase de diapositivas requiere JavaScript.

Sin duda alguna, a Nvidia se le ha ido la potencia de las manos, tanto es así que según sus ultimas declaraciones la arquitectura Volta no verá la luz en el sector domestico durante lo que queda del presente año al no tener competencia en dicho sector, por lo que el anuncio de su llegada al mercado de consumo se estima para algún momento del 2018.

Hardwadictive