(Supercomputador Sierra no Lawrence Livermore National Laboratory na Califórnia.)
Como os EUA competem com a China para construir os supercomputadores mais rápidos, você pode estar se perguntando como essas máquinas gigantes estão sendo usadas.
Um supercomputador pode conter centenas de milhares de núcleos de processadores e exigir um prédio inteiro para abrigar e refrigerar – sem mencionar milhões de dólares para criá-los e mantê-los. Mas apesar desses desafios, mais e mais estão prontos para entrar online à medida que os EUA e a China desenvolvem novos supercomputadores “exascales”, que prometem um aumento de desempenho cinco vezes maior do que os sistemas líderes atuais.
Então, quem precisa de toda essa potência computacional e por quê? Para descobrir, a PCMag visitou o Lawrence Livermore National Laboratory na Califórnia, que é o lar de vários supercomputadores, incluindo o segundo mais rápido do mundo, o Sierra. Foi lá que aprendemos como os engenheiros de sistemas estão mantendo as máquinas para servir os pesquisadores científicos, mas também testam algo que você pode não esperar: armas nucleares.
A Classified System
Sobre 1.000 pessoas mantêm os supercomputadores do laboratório e criam programas para eles.
Quando você visita Sierra, você notará as palavras “classificado” e “dados secretos restritos” postadas no supercomputador, que é composto de 240 racks do tipo servidor. Os avisos existem porque Sierra está processando dados envolvendo o estoque nuclear dos EUA, incluindo como as armas devem detonar no mundo real.
Os EUA conduziram seu último teste de armas nucleares ao vivo em 1992. Desde então, o país tem usado supercomputadores para ajudar a realizar as experiências virtualmente, e Sierra é parte dessa missão. A máquina foi concluída no ano passado, principalmente para ajudar o governo dos EUA a monitorar e testar a eficácia do arsenal nuclear envelhecido do país, que precisa ser mantido rotineiramente.
“A única maneira de um dissuasor funcionar é se você souber que ele pode funcionar, e que seu adversário também sabe e acredita que ele funciona”, disse Adam Bertsch, um engenheiro de sistemas de computação de alto desempenho no laboratório.
Exemplos de simulações realizadas no centro de supercomputação do laboratório. À esquerda está um experimento de pesquisa de energia de fusão envolvendo aquecimento e compressão de um alvo de combustível com 192 lasers. À direita está uma simulação hidrodinâmica de uma ‘interação de choque de ponto triplo’.’
Não surpreendentemente, a simulação de uma explosão nuclear requer muita matemática. Princípios fundamentais na ciência podem prever como as partículas irão interagir umas com as outras sob diferentes condições. O governo dos EUA também possui décadas de dados coletados de testes nucleares reais. Os cientistas combinaram essas informações para criar equações dentro de modelos de computador, que podem calcular como uma explosão nuclear irá explodir e mudar com o tempo.
Essencialmente, você está tentando mapear uma reação em cadeia. Então, para tornar os modelos precisos, eles foram projetados para prever uma detonação nuclear a níveis moleculares usando a física do mundo real. O desafio é que calcular o que todas estas partículas vão fazer requer um grande número de números de ruptura.
Looking For Deals On The Latest Tech?
Esta newsletter pode conter publicidade, ofertas, ou links de afiliados. Assinar uma newsletter indica seu consentimento aos nossos Termos de Uso e Política de Privacidade. Você pode cancelar sua inscrição a qualquer momento.
Enter Sierra. O supercomputador tem 190.000 núcleos de processador de CPU e 17.000 núcleos de GPU. Todo esse poder de computação significa que ele pode pegar uma tarefa enorme, como a simulação de fissão nuclear, e dividi-la em pedaços menores. Cada núcleo pode então processar um pequeno pedaço da simulação e comunicar os resultados para o resto da máquina. O processo se repetirá uma e outra vez enquanto o supercomputador tenta modelar uma explosão nuclear de um segundo para o outro.
“Você pode fazer uma simulação completa de um dispositivo nuclear no computador”, acrescentou Bertsch. “Você pode descobrir que ele funciona, exatamente como ele funciona e que tipo de efeitos ocorreriam”.”
Uma máquina de pesquisa
Clusters de cabos ajudam a Sierra a trocar dados. Outros cabos contêm água para manter o sistema frio.
A capacidade de um supercomputador calcular e modelar interações de partículas é o motivo pelo qual se tornou uma ferramenta tão importante para os pesquisadores. Em certo sentido, as reações estão acontecendo ao nosso redor. Isto pode incluir o tempo, como uma estrela se forma, ou quando células humanas entram em contato com uma droga.
Um supercomputador pode simular todas estas interações. Os cientistas podem, então, levar os dados para aprender percepções úteis, como se vai chover amanhã, se uma nova teoria científica é válida, ou se um próximo tratamento de câncer contém alguma promessa.
As mesmas tecnologias também podem permitir que as indústrias explorem inúmeros novos designs e descubram quais valem a pena testar no mundo real. É por isso que o laboratório tem experimentado uma enorme demanda por suas duas dúzias de supercomputadores.
“Não importa o poder computacional que tenhamos tido, as pessoas o usariam e pediriam mais”, disse Bertsch.
Também explica porque o governo dos EUA quer um supercomputador exascal. O poder extra de computação permitirá aos cientistas desenvolver simulações mais avançadas, como recriar interações de partículas ainda menores, o que poderia abrir o caminho para novos avanços na pesquisa. Os sistemas exascale também serão capazes de completar os projetos de pesquisa atuais em menos tempo. “O que você teve que passar meses fazendo pode levar apenas horas”, acrescentou Bertsch.
Um pesquisador se conecta com um supercomputador no laboratório online através de um PC Linux. Um ‘trabalho’ pode ser enfileirado simplesmente usando uma aplicação de linha de comando.
Sierra é parte de uma rede classificada não conectada à internet pública, que está disponível para cerca de 1.000 pesquisadores aprovados em programas científicos afiliados. Cerca de 3.000 pessoas realizam pesquisas em supercomputadores não classificados, que são acessíveis online desde que você tenha uma conta de usuário e as credenciais de login corretas. (Desculpe, mineiros Bitcoin.)
“Temos pessoas que compram no computador no momento da aquisição”, disse Bertsch. “A quantidade de dinheiro que você coloca está correlacionada com a porcentagem da máquina que você comprou.”
Um sistema de agendamento é usado para garantir sua “parte justa” com a máquina. “Ele tenta orientar a sua utilização para a percentagem que lhe foi atribuída”, acrescentou Bertsch. “Se você usou menos do que o seu “fair share” ao longo do tempo, sua prioridade sobe e você vai correr mais cedo”
Simulações estão sempre correndo. Um supercomputador pode rodar milhares de trabalhos a qualquer momento. Uma máquina também pode processar o que é chamado de “hero run”, ou um único trabalho que é tão grande que todo o supercomputador é necessário para completá-lo em um tempo razoável.
Keeping It Up And Running
As entranhas de outro supercomputador, Sequoia. Um rack não é muito diferente de um servidor.
Sierra é um supercomputador, mas a máquina tem sido feita em grande parte com peças de commodity. Os processadores, por exemplo, são chips de nível empresarial da IBM e Nvidia, e o próprio sistema roda o Red Hat Enterprise Linux, um SO popular entre os fornecedores de servidores.
“Antigamente, os supercomputadores eram estes grandes blobs monolíticos e esotéricos de hardware”, disse Robin Goldstone, o arquiteto da solução de computação de alto desempenho do laboratório. “Hoje em dia, até os maiores sistemas do mundo são essencialmente apenas um monte de servidores conectados entre si”
Para maximizar seu uso, um sistema como o Sierra precisa ser capaz de conduzir diferentes tipos de pesquisa. Por isso, o laboratório se propôs a criar uma máquina para todos os fins. Mas mesmo um supercomputador não é perfeito. O laboratório estima que a cada 12 horas a Sierra irá sofrer um erro que pode envolver um mau funcionamento do hardware. Isso pode parecer surpreendente, mas pense nisso como possuir 100.000 computadores; falhas e reparos são inevitáveis.
“As coisas mais comuns que falham são provavelmente DIMMs de memória, fontes de alimentação, ventiladores”, disse Goldstone. Felizmente, a Sierra é tão grande, que tem muita capacidade. O supercomputador também está rotineiramente criando backups de memória no caso de um erro interromper um projeto.
“Até certo ponto, isto não é exatamente como um PC que você tem em casa, mas um sabor disso”, acrescentou Goldstone. “Pegue os jogadores que estão obcecados em obter a memória mais rápida, e a GPU mais rápida, e isso é a mesma coisa pela qual estamos obcecados”. O desafio connosco é que temos tantos a correr ao mesmo tempo”
Below the supercomputers is a piping system that send up room-temperature water to keep the machines cool. A Sierra é 80% refrigerada a água, 20% refrigerada a ar.
A própria Sierra fica em uma sala de 47.000 pés quadrados, que é preenchida com o ruído dos ventiladores mantendo o hardware frio. Um nível abaixo da máquina é o sistema de bombeamento de água do edifício. A cada minuto, ele pode enviar milhares de galões para as tubulações, que então alimentam os racks do supercomputador e circulam a água de volta para fora.
Na frente de energia, o laboratório foi equipado para fornecer 45 megawatts – ou eletricidade suficiente para uma pequena cidade. Cerca de 11 desses megawatts foram delegados à Sierra. No entanto, o consumo de energia de um supercomputador pode ocasionalmente suscitar reclamações de empresas de energia locais. Quando uma aplicação cai, a demanda de energia de uma máquina pode de repente cair vários megawatts.
O fornecedor de energia “não gosta nada disso”. Porque eles têm de descarregar carga. Eles estão pagando por energia”, disse Goldstone. “Eles nos ligaram e disseram: ‘Você não pode mais fazer isso?'”
O Futuro Exascale
No ano passado, a Sequoia se classificou como o 10º supercomputador mais rápido do mundo. Mas logo será substituída por uma máquina mais poderosa.
O Laboratório Nacional Lawrence Livermore é também o lar de outro supercomputador chamado Sequoia, que reinou brevemente como o sistema top do mundo em 2012. Mas o laboratório planeja aposentá-lo no final deste ano para dar lugar a um supercomputador maior e melhor, chamado El Capitan, que está entre os supercomputadores exascendentes que o governo dos EUA tem planejado.
Espere que ele fique online em 2023. Mas não vai ficar sozinho. El Capitan vai se juntar a outros dois sistemas exascale, que os EUA estão gastando mais de US$1 bilhão para construir. Ambos serão concluídos em 2021 em laboratórios separados em Illinois e Tennessee.
“Em algum momento, continuo pensando, ‘Não é rápido o suficiente? Quão mais rápido precisamos realmente que estes computadores sejam?” Goldstone disse. “Mas é mais sobre ser capaz de resolver problemas mais rápido ou estudar problemas com resolução mais alta, para que possamos realmente ver algo a nível molecular.”
Mas a indústria de supercomputação eventualmente precisará inovar. É simplesmente insustentável continuar a construir máquinas maiores que consomem mais energia e ocupam mais espaço físico. “Estamos a ultrapassar os limites do que a tecnologia de hoje pode fazer”, disse ela. “Vai ter que haver avanços em outras áreas além dos tradicionais chips de computação baseados em silício para nos levar a esse próximo nível”
Entretanto, o laboratório tem trabalhado com fornecedores como IBM e Nvidia para resolver gargalos imediatos, incluindo a melhoria da arquitetura de rede de um supercomputador para que ele possa se comunicar rapidamente através dos diferentes clusters, bem como a confiabilidade dos componentes”. “A velocidade do processador não importa mais”, acrescentou ela. “Por mais rápidos que os processadores sejam, estamos restringidos pela largura de banda de memória”
O laboratório anunciará mais detalhes sobre o El Capitan no futuro. Quanto ao computador que está substituindo, Sequoia, o sistema está indo para o esquecimento.
Para fins de segurança, o laboratório planeja triturar cada peça da máquina e reciclar seus restos. Os supercomputadores podem acabar executando dados confidenciais do governo, por isso é vital que qualquer vestígio dessa informação seja completamente purgado – mesmo que isso signifique transformar a máquina em sucata. Isso pode parecer extremo, mas podem ser cometidos erros ao tentar apagar os dados virtualmente, por isso o laboratório precisa ter certeza absoluta de que os dados desapareceram permanentemente.