Perché abbiamo bisogno di supercomputer e chi li usa?

(Il supercomputer Sierra al Lawrence Livermore National Laboratory in California.)

Mentre gli Stati Uniti competono con la Cina per costruire i supercomputer più veloci, ci si potrebbe chiedere come vengono utilizzate queste macchine giganti.

Un supercomputer può contenere centinaia di migliaia di core di processori e richiedere un intero edificio per ospitarli e raffreddarli, per non parlare dei milioni di dollari per crearli e mantenerli. Ma nonostante queste sfide, un numero sempre maggiore di supercomputer è destinato ad andare online man mano che gli Stati Uniti e la Cina sviluppano nuovi supercomputer “exascale”, che promettono un aumento delle prestazioni di cinque volte rispetto agli attuali sistemi di punta.

A chi serve quindi tutta questa potenza di calcolo e perché? Per scoprirlo, PCMag ha visitato il Lawrence Livermore National Laboratory in California, che ospita diversi supercomputer, tra cui il secondo più veloce al mondo, Sierra. Lì abbiamo imparato come gli ingegneri di sistema mantengono le macchine per servire i ricercatori scientifici ma anche per testare qualcosa che non ci si potrebbe aspettare: armi nucleari.

Un sistema classificato

Circa 1.000 persone mantengono i supercomputer del laboratorio e creano programmi per loro.

Quando visiti Sierra, noterai le parole “classificato” e “dati segreti riservati” affisse sul supercomputer, che è composto da 240 rack tipo server. Gli avvertimenti esistono perché Sierra sta elaborando dati che riguardano le scorte nucleari degli Stati Uniti, compreso il modo in cui le armi dovrebbero esplodere nel mondo reale.

Gli Stati Uniti hanno condotto il loro ultimo test di armi nucleari dal vivo nel 1992. Da allora, il paese ha usato i supercomputer per aiutare a condurre gli esperimenti virtualmente, e Sierra fa parte di questa missione. La macchina è stata completata l’anno scorso principalmente per aiutare il governo degli Stati Uniti a monitorare e testare l’efficacia del vecchio arsenale nucleare del paese, che ha bisogno di essere mantenuto regolarmente.

“L’unico modo in cui un deterrente funziona è se sai che può funzionare, e che anche il tuo avversario sa e crede che funzioni”, ha detto Adam Bertsch, un ingegnere di sistemi di calcolo ad alte prestazioni presso il laboratorio.

Esempi di simulazioni effettuate presso il centro di supercalcolo del laboratorio. A sinistra c’è un esperimento di ricerca sull’energia di fusione che comporta il riscaldamento e la compressione di un bersaglio di combustibile con 192 laser. A destra c’è una simulazione legata all’idrodinamica di una “interazione d’urto a tre punti”.

Non sorprende che la simulazione di un’esplosione nucleare richieda molta matematica. I principi fondamentali della scienza possono prevedere come le particelle interagiranno tra loro in diverse condizioni. Il governo degli Stati Uniti possiede anche decenni di dati raccolti da test nucleari reali. Gli scienziati hanno combinato queste informazioni per creare equazioni all’interno di modelli informatici, che possono calcolare come un’esplosione nucleare si scatenerà e cambierà nel tempo.

In sostanza, si sta cercando di tracciare una reazione a catena. Quindi, per rendere i modelli accurati, sono stati progettati per prevedere una detonazione nucleare a livello molecolare utilizzando la fisica del mondo reale. La sfida è che calcolare cosa faranno tutte queste particelle richiede un sacco di numeri.

PCMag Tech Deals

Cercando offerte sull’ultima tecnologia?

Questa newsletter può contenere pubblicità, offerte o link affiliati. L’iscrizione alla newsletter indica il tuo consenso alle nostre condizioni d’uso e all’informativa sulla privacy. Puoi cancellarti in qualsiasi momento.

Entrare in Sierra. Il supercomputer ha 190.000 core di processore CPU e 17.000 core di GPU. Tutta questa potenza di calcolo significa che può prendere un compito enorme, come simulare la fissione nucleare, e scomporlo in pezzi più piccoli. Ogni core può quindi elaborare una piccola parte della simulazione e comunicare i risultati al resto della macchina. Il processo si ripeterà più e più volte mentre il supercomputer cerca di modellare un’esplosione nucleare da un secondo all’altro.

“Si può fare una simulazione completa di un dispositivo nucleare nel computer”, ha aggiunto Bertsch. “Puoi scoprire che funziona, esattamente quanto bene funziona e che tipo di effetti accadrebbero.”

Una macchina di ricerca

I gruppi di cavi aiutano Sierra a scambiare dati. Altri cavi contengono acqua per mantenere il sistema fresco.

La capacità di un supercomputer di calcolare e modellare le interazioni tra particelle è il motivo per cui è diventato uno strumento così importante per i ricercatori. In un certo senso, le reazioni avvengono intorno a noi. Questo può includere il tempo atmosferico, come si forma una stella, o quando le cellule umane entrano in contatto con un farmaco.

Un supercomputer può simulare tutte queste interazioni. Gli scienziati possono poi prendere i dati per imparare intuizioni utili, come se domani pioverà, se una nuova teoria scientifica è valida, o se un prossimo trattamento del cancro è promettente.

Le stesse tecnologie possono anche permettere alle industrie di esplorare innumerevoli nuovi progetti e capire quali vale la pena testare nel mondo reale. È il motivo per cui il laboratorio ha sperimentato un’enorme domanda per le sue due dozzine di supercomputer.

“Non importa quanta potenza di calcolo abbiamo avuto, la gente la usava e ne chiedeva di più”, ha detto Bertsch.

Si spiega anche perché il governo americano vuole un supercomputer exascale. La potenza di calcolo extra permetterà agli scienziati di sviluppare simulazioni più avanzate, come ricreare interazioni di particelle ancora più piccole, che potrebbero aprire la strada a nuove scoperte nella ricerca. I sistemi exascale saranno anche in grado di completare gli attuali progetti di ricerca in meno tempo. “Quello che prima si doveva fare per mesi potrebbe richiedere solo ore”, ha aggiunto Bertsch.

Un ricercatore si connette con un supercomputer del laboratorio online tramite un PC Linux. Un ‘lavoro’ può essere accodato semplicemente usando un’applicazione a riga di comando.

Sierra fa parte di una rete classificata non connessa a internet pubblica, che è disponibile per circa 1.000 ricercatori approvati in programmi scientifici affiliati. Circa 3.000 persone conducono ricerche su supercomputer non classificati, che sono accessibili online a condizione di avere un account utente e le giuste credenziali di accesso. (Scusate, minatori di Bitcoin.)

“Abbiamo persone che comprano il computer al momento dell’acquisizione”, ha detto Bertsch. “La quantità di denaro che si mette in correlazione con la percentuale della macchina che si è acquistata”

Un sistema di programmazione viene utilizzato per garantire la vostra “parte equa” con la macchina. “Cerca di orientare il tuo utilizzo verso la percentuale che ti è stata assegnata”, ha aggiunto Bertsch. “Se hai usato meno della tua giusta quota nel tempo, la tua priorità sale e verrai eseguito prima.”

Le simulazioni sono sempre in esecuzione. Un supercomputer può eseguire migliaia di lavori in qualsiasi momento. Una macchina può anche elaborare quello che viene chiamato “hero run”, ovvero un singolo lavoro così grande da richiedere l’intero supercomputer per completarlo in un tempo ragionevole.

Keeping It Up And Running

Le viscere di un altro supercomputer, Sequoia. Un rack non è troppo diverso da un server.

Sierra è un supercomputer, ma la macchina è stata in gran parte realizzata con parti comuni. I processori, per esempio, sono chip di livello enterprise di IBM e Nvidia, e il sistema stesso esegue Red Hat Enterprise Linux, un sistema operativo popolare tra i venditori di server.

“In passato, i supercomputer erano questi grandi blocchi monolitici di hardware esoterico”, ha detto Robin Goldstone, l’architetto delle soluzioni di calcolo ad alte prestazioni del laboratorio. “Al giorno d’oggi, anche i sistemi più grandi del mondo sono essenzialmente solo un mucchio di server collegati insieme.”

Per massimizzare il suo utilizzo, un sistema come Sierra deve essere in grado di condurre diversi tipi di ricerca. Così il laboratorio ha deciso di creare una macchina polivalente. Ma anche un supercomputer non è perfetto. Il laboratorio stima che ogni 12 ore Sierra subirà un errore che può comportare un malfunzionamento dell’hardware. Questo può sembrare sorprendente, ma pensate che è come possedere 100.000 computer; guasti e riparazioni sono inevitabili.

“Le cose più comuni che falliscono sono probabilmente le DIMM di memoria, gli alimentatori, le ventole”, ha detto Goldstone. Fortunatamente, Sierra è così grande che ha molta capacità. Il supercomputer sta anche creando abitualmente dei backup di memoria nel caso in cui un errore interrompa un progetto.

“In una certa misura, questo non è esattamente come un PC che avete a casa, ma un sapore di quello”, ha aggiunto Goldstone. “Prendete i giocatori che sono ossessionati dall’avere la memoria più veloce e la GPU più veloce, e questa è la stessa cosa di cui siamo ossessionati noi. La sfida con noi è che ne abbiamo così tanti in esecuzione allo stesso tempo.”

Sotto i supercomputer c’è un sistema di tubazioni che invia acqua a temperatura ambiente per mantenere le macchine fresche. Sierra è raffreddato ad acqua per l’80% e ad aria per il 20%.

Sierra stesso si trova in una stanza di 47.000 piedi quadrati, che è piena del rumore dei ventilatori che mantengono l’hardware fresco. Un livello sotto la macchina è il sistema di pompaggio dell’acqua dell’edificio. Ogni minuto, può inviare migliaia di galloni nei tubi, che poi alimentano i rack del supercomputer e fanno circolare l’acqua all’esterno.

Sul fronte dell’energia, il laboratorio è stato attrezzato per fornire 45 megawatt – o abbastanza elettricità per una piccola città. Circa 11 di questi megawatt sono stati delegati a Sierra. Tuttavia, il consumo di energia di un supercomputer può occasionalmente scatenare lamentele da parte delle compagnie energetiche locali. Quando un’applicazione si blocca, le richieste di energia di una macchina possono improvvisamente scendere di diversi megawatt.

Il fornitore di energia “non piace affatto. Perché devono diminuire il carico. Stanno pagando per l’energia”, ha detto Goldstone. “Ci hanno chiamato al telefono e ci hanno detto: ‘Non potete più farlo?'”

Il futuro Exascale

L’anno scorso, Sequoia si è classificato come il 10° supercomputer più veloce del mondo. Ma sarà presto sostituito da una macchina più potente.

Il Lawrence Livermore National Lab è anche sede di un altro supercomputer chiamato Sequoia, che ha regnato brevemente come il miglior sistema del mondo nel 2012. Ma il laboratorio prevede di mandarlo in pensione alla fine di quest’anno per far posto a un supercomputer più grande e migliore, chiamato El Capitan, che è tra i supercomputer exascale che il governo degli Stati Uniti sta progettando.

Si aspetta che vada online nel 2023. Ma non sarà solo. El Capitan si unirà ad altri due sistemi exascale, per la cui costruzione gli Stati Uniti stanno spendendo oltre 1 miliardo di dollari. Entrambi saranno completati nel 2021 in laboratori separati in Illinois e Tennessee.

“Ad un certo punto, continuo a pensare, ‘Non è abbastanza veloce? Quanto più veloce abbiamo davvero bisogno che questi computer siano?”. Ha detto Goldstone. “Ma si tratta più di essere in grado di risolvere i problemi più velocemente o di studiare i problemi ad una risoluzione più alta, in modo da poter vedere davvero qualcosa a livello molecolare”. È semplicemente insostenibile continuare a costruire macchine più grandi che consumano più potenza e occupano più spazio fisico. “Stiamo spingendo i limiti di ciò che la tecnologia di oggi può fare”, ha detto. “Nel frattempo, il laboratorio ha lavorato con fornitori come IBM e Nvidia per risolvere i colli di bottiglia immediati, compreso il miglioramento dell’architettura di rete di un supercomputer in modo che possa comunicare rapidamente tra i diversi cluster, così come l’affidabilità dei componenti. “La velocità del processore non ha più importanza”, ha aggiunto. “Per quanto veloci siano i processori, siamo limitati dalla larghezza di banda della memoria.”

Il laboratorio annuncerà ulteriori dettagli su El Capitan in futuro. Per quanto riguarda il computer che sta sostituendo, Sequoia, il sistema è diretto verso l’oblio.

Per motivi di sicurezza, il laboratorio prevede di macinare ogni pezzo della macchina e riciclare i suoi resti. I supercomputer possono finire per eseguire dati governativi classificati, quindi è vitale che ogni traccia di quelle informazioni sia completamente eliminata, anche se ciò significa trasformare la macchina in rottami. Questo può sembrare estremo, ma si possono commettere errori quando si cerca di cancellare virtualmente i dati, quindi il laboratorio deve essere assolutamente sicuro che i dati siano spariti per sempre.