Tesla está construyendo un superordenador con 50.000 GPUs de Nvidia que necesitan un edificio sólo para refrigerarse

La inteligencia artificial necesita tres cosas: datos, algoritmos y muchísima potencia de computación. Tesla tiene una ingente cantidad de datos, que recopila de sus millones de coches, tiene los algoritmos y ahora quiere aumentar su capacidad de computación. Para ello, está construyendo un enorme clúster de supercomputación en su fábrica de Texas (Estados Unidos), un potentísimo superordenador del cual Elon Musk, CEO de la compañía, ha dado algunos datos sobre su impresionante potencia y la energía que utilizará para poder refrigerarse. Ya os avanzamos que es una barbaridad.
En una publicación en su perfil personal de X (anteriormente Twitter), Musk señaló que la nueva supercomputadora de Tesla tendrá aproximadamente 130 MW de potencia sólo para la refrigeración este año, y se espera que aumente a más de 500 MW en los próximos 18 meses cuando el superordenador esté a pleno rendimiento.
Pensad en esa cifra por un momento: esos 500 MW de potencia son solamente para el sistema de refrigeración. La razón es sencilla: las supercomputadoras generan una enorme cantidad de calor debido a su enorme potencia informática, y este superordenador será uno de los más potentes de su tipo en todo el mundo.
Si tu ordenador se calienta cuando le exiges cierto rendimiento, imagina el calor que puede generar un superordenador compuesto por varios miles de GPUs trabajando al mismo tiempo. La refrigeración por líquido ayuda a mantener estable la temperatura para garantizar que el rendimiento se mantenga constante, incluso con cargas de trabajo altas.
Sizing for ~130MW of power & cooling this year, but will increase to >500MW over next 18 months or so.

Aiming for about half Tesla AI hardware, half Nvidia/other.

Play to win or don’t play at all.
En una foto publicada también en X, se puede ver el sistema de refrigeración y su gigantesco tamaño (sirvan los vehículos alrededor como referencia). Este clúster de supercomputación necesita seis grandes ventiladores y cuatro tanques de agua,  además de líneas subterráneas de agua y una infraestructura de circuitos de refrigeración en el segundo piso del edificio. Unas instalaciones fundamentales para lidiar con la enorme cantidad de calor generado por el equipo de supercomputación.
Musk confirmó por primera vez el clúster de supercomputación en Texas el mes pasado, llamándolo un «clúster de supercomputación súper denso y refrigerado por agua». Musk también mencionó que la mitad de los chips utilizados serán hardware diseñado por la propia Tesla, mientras que la otra mitad estará compuesta por hardware de Nvidia u otras compañías.
En términos de inversión, solamente las GPUs de Nvidia supondrán entre 3.000 y 4.000 millones de dólares del gasto relacionado con la inteligencia artificial (IA) de Tesla previsto para este año, que en total ascenderá a unos 10.000 millones de dólares.
Este nuevo clúster de supercomputación ocupará la parte sur de la gigafactoría de Texas y tendrá 50.000 unidades de la Nvidia H100 Tensor Core, la GPU más potente del mundo disponible actualmente a nivel comercial (aunque Nvidia ya tiene en marcha una nueva generación más potente). No está pensada para particulares sino para empresas y, más concretamente, para inteligencia artificial.
La Nvidia H100 es un auténtico hito de la tecnología y supera en todo, y por mucho, a su antecesora. Su potencia de cálculo multiplica varias veces los registros de la A100, pero también consume más energía: hasta 700 W, en comparación con los 400 W de su antecesora. Utilizarla requiere mucha más energía y, por ende, resulta más caro a las empresas. Cada GPU tiene 80.000 millones de transistores (cuesta dar sentido a este dato) y cuesta la friolera de 30.000 dólares. Solamente en GPUs, el superordenador de Tesla se lleva unos 1.500 millones de dólares.
La capacidad de manejar y procesar grandes cantidades de datos es fundamental para el desarrollo de las tecnologías de conducción autónoma y otras aplicaciones avanzadas de inteligencia artificial (IA). Con esto en cuenta, para mejorar estas tecnologías es fundamental aumentar la capacidad de supercomputación.
Los coches de Tesla generan una abrumadora cantidad de datos, los cuales se utilizan para mejorar continuamente la tecnología. Las supercomputadoras permiten a Tesla procesar grandes volúmenes de datos a gran velocidad y sirven para entrenar las redes neuronales del Piloto automático de Tesla, entre otras cosas, y serán fundamentales para el desarrollo de sus taxis completamente autónomos.
El clúster de Texas no es el único que tiene Tesla alrededor del mundo. De hecho, ya en 2021 tenía un superordenador compuesto por 5.760 GPUs (Nvidia A100) con una potencia de cálculo de 1,8 exaflops, el ordenador más potente en la industria del automóvil y uno de los más potentes del mundo (al menos en aquella época).
Redactor y probador de Híbridos y Eléctricos, desde 2019 cubriendo la actualidad del sector de los vehículos eléctricos y la movilidad sostenible.
Temas

source