(Supercomputadora Sierra en el Laboratorio Nacional Lawrence Livermore de California.)
Mientras EE.UU. compite con China para construir las supercomputadoras más rápidas, es posible que se pregunte cómo se utilizan estas gigantescas máquinas.
Una supercomputadora puede contener cientos de miles de núcleos de procesamiento y requerir un edificio entero para albergarla y refrigerarla, por no mencionar los millones de dólares que cuesta crearla y mantenerla. Sin embargo, a pesar de estos retos, cada vez hay más ordenadores en línea a medida que Estados Unidos y China desarrollan nuevos superordenadores de «exaescala», que prometen quintuplicar el rendimiento de los principales sistemas actuales.
Entonces, ¿quién necesita toda esta potencia de cálculo y por qué? Para averiguarlo, PCMag visitó el Laboratorio Nacional Lawrence Livermore, en California, que alberga varios superordenadores, incluido el segundo más rápido del mundo, Sierra. Allí nos enteramos de cómo los ingenieros de sistemas mantienen las máquinas para que sirvan a los investigadores científicos, pero también para que prueben algo que no se espera: armas nucleares.
Un sistema clasificado
Alrededor de 1.000 personas mantienen los superordenadores del laboratorio y crean programas para ellos.
Cuando se visita Sierra, se observan las palabras «clasificado» y «datos secretos restringidos» colocadas en el superordenador, que está formado por 240 bastidores tipo servidor. Las advertencias existen porque Sierra está procesando datos relacionados con el arsenal nuclear de EE.UU., incluyendo cómo deberían detonar las armas en el mundo real.
Estados Unidos realizó su última prueba de armas nucleares en vivo en 1992. Desde entonces, el país ha utilizado superordenadores para ayudar a realizar los experimentos de forma virtual, y Sierra forma parte de esa misión. La máquina se completó el año pasado principalmente para ayudar al gobierno estadounidense a supervisar y probar la eficacia del envejecido arsenal nuclear del país, que necesita un mantenimiento rutinario.
«La única manera de que una disuasión funcione es si sabes que puede funcionar, y que tu adversario también sabe y cree que funciona», dijo Adam Bertsch, ingeniero de sistemas informáticos de alto rendimiento del laboratorio.
Ejemplos de simulaciones realizadas en el centro de supercomputación del laboratorio. A la izquierda, un experimento de investigación sobre la energía de fusión que consiste en calentar y comprimir un blanco de combustible con 192 láseres. A la derecha, una simulación hidrodinámica de una «interacción de choque de tres puntos».
No es de extrañar que la simulación de una explosión nuclear requiera muchas matemáticas. Los principios fundamentales de la ciencia pueden predecir cómo interactuarán las partículas entre sí bajo diferentes condiciones. El gobierno estadounidense también posee décadas de datos recogidos de pruebas nucleares reales. Los científicos han combinado esta información para crear ecuaciones dentro de los modelos informáticos, que pueden calcular cómo se producirá una explosión nuclear y cómo cambiará con el tiempo.
Esencialmente, se está tratando de trazar una reacción en cadena. Para que los modelos sean precisos, se han diseñado para predecir una detonación nuclear a nivel molecular utilizando la física del mundo real. El reto es que calcular lo que harán todas estas partículas requiere una gran cantidad de cálculos numéricos.
¿Buscas ofertas en la última tecnología?
Este boletín puede contener publicidad, ofertas o enlaces de afiliados. La suscripción a un boletín de noticias indica su consentimiento a nuestras condiciones de uso y política de privacidad. Puede darse de baja en cualquier momento.
Entra en Sierra. El superordenador tiene 190.000 núcleos de procesamiento de CPU y 17.000 núcleos de GPU. Toda esa potencia de cálculo significa que puede tomar una tarea enorme, como la simulación de la fisión nuclear, y dividirla en partes más pequeñas. Cada núcleo puede procesar una pequeña parte de la simulación y comunicar los resultados al resto de la máquina. El proceso se repetirá una y otra vez mientras el superordenador intenta modelar una explosión nuclear de un segundo a otro.
«Puedes hacer una simulación completa de un dispositivo nuclear en el ordenador», añadió Bertsch. «Puedes averiguar que funciona, exactamente cómo funciona y qué tipo de efectos se producirían».
Una máquina de investigación
Los grupos de cables ayudan a Sierra a intercambiar datos. Otros cables contienen agua para mantener el sistema frío.
La capacidad de un superordenador para calcular y modelar las interacciones de las partículas es la razón por la que se ha convertido en una herramienta tan importante para los investigadores. En cierto sentido, las reacciones ocurren a nuestro alrededor. Esto puede incluir el clima, cómo se forma una estrella o cuando las células humanas entran en contacto con un medicamento.
Un superordenador puede simular todas estas interacciones. Los científicos pueden aprovechar los datos para obtener información útil, como por ejemplo si lloverá mañana, si una nueva teoría científica es válida o si un próximo tratamiento contra el cáncer es prometedor.
Las mismas tecnologías también pueden permitir a las industrias explorar innumerables diseños nuevos y averiguar cuáles merecen ser probados en el mundo real. Por eso el laboratorio ha experimentado una enorme demanda de sus dos docenas de superordenadores.
«Por mucha potencia de cálculo que tuviéramos, la gente la agotaría y pediría más», dijo Bertsch.
También explica por qué el gobierno estadounidense quiere un superordenador a exaescala. La potencia de cálculo adicional permitirá a los científicos desarrollar simulaciones más avanzadas, como la recreación de interacciones de partículas aún más pequeñas, lo que podría allanar el camino para nuevos avances en la investigación. Los sistemas de exaescala también podrán completar los proyectos de investigación actuales en menos tiempo. «Lo que antes había que hacer durante meses podría llevar sólo horas», añadió Bertsch.
Un investigador se conecta con un superordenador del laboratorio en línea a través de un PC con Linux. Se puede poner en cola un «trabajo» simplemente utilizando una aplicación de línea de comandos.
Sierra forma parte de una red clasificada no conectada a la Internet pública, a la que pueden acceder unos 1.000 investigadores aprobados en programas científicos afiliados. Unas 3.000 personas investigan en superordenadores no clasificados, a los que se puede acceder en línea siempre que se tenga una cuenta de usuario y las credenciales de acceso adecuadas. (Lo sentimos, mineros de Bitcoin.)
«Tenemos gente que compra el ordenador en el momento de la adquisición», dijo Bertsch. «La cantidad de dinero que pones se correlaciona con el porcentaje de la máquina que has comprado»
Se utiliza un sistema de programación para asegurar tu «parte justa» con la máquina. «Intenta dirigir tu uso hacia el porcentaje que te han asignado», añadió Bertsch. «Si has utilizado menos de tu parte justa a lo largo del tiempo, tu prioridad sube y se ejecuta antes».
Las simulaciones están siempre en marcha. Un superordenador puede ejecutar miles de trabajos en cualquier momento. Una máquina también puede procesar lo que se denomina una «ejecución heroica», o un único trabajo tan grande que se necesita todo el superordenador para completarlo en un tiempo razonable.
Mantenerlo en funcionamiento
Las tripas de otro superordenador, Sequoia. Un bastidor no se diferencia demasiado de un servidor.
Sierra es un superordenador, pero la máquina se ha fabricado en gran medida con piezas básicas. Los procesadores, por ejemplo, son chips de grado empresarial de IBM y Nvidia, y el propio sistema ejecuta Red Hat Enterprise Linux, un sistema operativo muy popular entre los vendedores de servidores.
«Antes, los superordenadores eran esas grandes manchas monolíticas y esotéricas de hardware», dijo Robin Goldstone, arquitecto de soluciones informáticas de alto rendimiento del laboratorio. «Hoy en día, incluso los sistemas más grandes del mundo son esencialmente un montón de servidores conectados entre sí».
Para maximizar su uso, un sistema como Sierra debe ser capaz de realizar diferentes tipos de investigación. Así que el laboratorio se propuso crear una máquina polivalente. Pero incluso un superordenador no es perfecto. El laboratorio calcula que cada 12 horas Sierra sufrirá un error que puede implicar un mal funcionamiento del hardware. Eso puede parecer sorprendente, pero piense que es como tener 100.000 ordenadores; los fallos y las reparaciones son inevitables.
«Las cosas más comunes que fallan son probablemente los DIMM de memoria, las fuentes de alimentación, los ventiladores», dijo Goldstone. Afortunadamente, Sierra es tan grande que tiene mucha capacidad. El superordenador también crea rutinariamente copias de seguridad de la memoria en caso de que un error interrumpa un proyecto.
«Hasta cierto punto, esto no es exactamente como un PC que tienes en casa, sino un sabor de eso», añadió Goldstone. «Los jugadores están obsesionados con conseguir la memoria más rápida y la GPU más rápida, y eso es lo mismo que nos obsesiona a nosotros. El reto para nosotros es que tenemos muchos funcionando al mismo tiempo».
Debajo de los superordenadores hay un sistema de tuberías que envía agua a temperatura ambiente para mantener las máquinas refrigeradas. Sierra está refrigerado en un 80% por agua y en un 20% por aire.
Sierra se encuentra en una sala de 47.000 pies cuadrados, que se llena con el ruido de los ventiladores que mantienen fresco el hardware. Un nivel por debajo de la máquina se encuentra el sistema de bombeo de agua del edificio. Cada minuto, puede enviar miles de galones a las tuberías, que luego alimentan los bastidores del superordenador y hacen circular el agua de nuevo hacia fuera.
En el frente de la energía, el laboratorio ha sido equipado para suministrar 45 megavatios -o suficiente electricidad para una pequeña ciudad. Unos 11 de esos megavatios se han delegado en Sierra. Sin embargo, el consumo de energía de un superordenador puede provocar ocasionalmente quejas de las compañías energéticas locales. Cuando una aplicación se bloquea, la demanda de energía de una máquina puede bajar repentinamente varios megavatios.
Al proveedor de energía «no le gusta nada eso. Porque tienen que deshacerse de la carga. Están pagando por la energía», dijo Goldstone. «Nos han llamado por teléfono y nos han dicho: ‘¿No podéis seguir haciendo eso?»
El futuro de la exaescala
El año pasado, Sequoia fue el décimo superordenador más rápido del mundo. Pero pronto será sustituido por una máquina más potente.
El Laboratorio Nacional Lawrence Livermore también alberga otro superordenador llamado Sequoia, que reinó brevemente como el mejor sistema del mundo allá por 2012. Pero el laboratorio planea retirarlo a finales de este año para dar paso a un superordenador más grande y mejor, llamado El Capitán, que forma parte de los superordenadores de exaescala que el gobierno de EE.UU. ha estado planeando.
Se espera que entre en funcionamiento en 2023. Pero no estará solo. El Capitán se unirá a otros dos sistemas de exaescala, en cuya construcción Estados Unidos está gastando más de mil millones de dólares. Ambos se completarán en 2021 en laboratorios distintos de Illinois y Tennessee.
«En algún momento, sigo pensando: ‘¿No es suficientemente rápido? Cuánto más rápidos necesitamos realmente que sean estos ordenadores?» dijo Goldstone. «Pero se trata más bien de poder resolver problemas con mayor rapidez o estudiar problemas con mayor resolución, de modo que podamos ver realmente algo en los niveles moleculares».
Pero la industria de la supercomputación tendrá que innovar finalmente. Es sencillamente insostenible seguir construyendo máquinas más grandes que consumen más energía y ocupan más espacio físico. «Estamos llegando a los límites de lo que la tecnología actual puede hacer», afirma. «Tendrá que haber avances en otras áreas más allá de los chips de computación tradicionales basados en el silicio para llevarnos a ese siguiente nivel».
Mientras tanto, el laboratorio ha estado trabajando con proveedores como IBM y Nvidia para resolver los cuellos de botella inmediatos, incluyendo la mejora de la arquitectura de red de un superordenador para que pueda comunicarse rápidamente a través de los diferentes clusters, así como la fiabilidad de los componentes. «La velocidad del procesador ya no importa», añadió. «Por muy rápidos que sean los procesadores, estamos limitados por el ancho de banda de la memoria»
El laboratorio anunciará más detalles sobre El Capitán en el futuro. En cuanto al ordenador al que sustituye, Sequoia, el sistema se dirige al olvido.
Por motivos de seguridad, el laboratorio planea triturar cada pieza de la máquina y reciclar sus restos. Los superordenadores pueden acabar ejecutando datos clasificados del gobierno, por lo que es vital purgar por completo cualquier rastro de esa información, aunque eso signifique convertir la máquina en chatarra. Eso puede sonar extremo, pero se pueden cometer errores al intentar borrar los datos virtualmente, por lo que el laboratorio necesita estar absolutamente seguro de que los datos han desaparecido definitivamente.