(Sierra-Supercomputer im Lawrence Livermore National Laboratory in Kalifornien)
Während die USA mit China um den Bau der schnellsten Supercomputer konkurrieren, fragen Sie sich vielleicht, wie diese riesigen Maschinen genutzt werden.
Ein Supercomputer kann Hunderttausende von Prozessorkernen enthalten und ein ganzes Gebäude zur Unterbringung und Kühlung benötigen – ganz zu schweigen von den Millionen von Dollar, die für die Entwicklung und Wartung aufgewendet werden. Doch trotz dieser Herausforderungen werden immer mehr davon ans Netz gehen, da die USA und China neue „Exascale“-Supercomputer entwickeln, die eine fünffache Leistungssteigerung im Vergleich zu den derzeit führenden Systemen versprechen.
Wer braucht also all diese Rechenleistung und warum? Um das herauszufinden, hat PCMag das Lawrence Livermore National Laboratory in Kalifornien besucht, das mehrere Supercomputer beherbergt, darunter den zweitschnellsten der Welt, Sierra. Dort erfuhren wir, wie Systemingenieure die Maschinen warten, um wissenschaftlichen Forschern zu dienen, aber auch um etwas zu testen, was man vielleicht nicht erwartet: Atomwaffen.
Ein geheimes System
Ungefähr 1.000 Menschen warten die Supercomputer des Labors und erstellen Programme für sie.
Wenn Sie Sierra besuchen, werden Sie die Worte „Verschlusssache“ und „geheime, eingeschränkte Daten“ auf dem Supercomputer sehen, der aus 240 serverähnlichen Racks besteht. Die Warnungen sind angebracht, weil Sierra Daten über das US-Atomwaffenarsenal verarbeitet, darunter auch Daten darüber, wie die Waffen in der realen Welt detonieren sollten.
Die USA führten ihren letzten Live-Atomwaffentest im Jahr 1992 durch. Seitdem setzt das Land Supercomputer ein, um die Experimente virtuell durchzuführen, und Sierra ist Teil dieser Aufgabe. Die Maschine wurde im vergangenen Jahr fertiggestellt, um die US-Regierung bei der Überwachung und Prüfung der Wirksamkeit des alternden Atomwaffenarsenals des Landes zu unterstützen, das regelmäßig gewartet werden muss.
„Eine Abschreckung funktioniert nur, wenn man weiß, dass sie funktioniert, und wenn der Gegner ebenfalls weiß und glaubt, dass sie funktioniert“, sagte Adam Bertsch, ein Ingenieur für Hochleistungsrechnersysteme im Labor.
Beispiele für Simulationen, die im Supercomputing Center des Labors durchgeführt werden. Links ist ein Experiment zur Fusionsenergieforschung zu sehen, bei dem ein Brennstofftarget mit 192 Lasern erhitzt und komprimiert wird. Rechts ist eine hydrodynamische Simulation einer „Dreipunkt-Schock-Wechselwirkung“
Es überrascht nicht, dass die Simulation einer Kernexplosion eine Menge Mathematik erfordert. Grundlegende wissenschaftliche Prinzipien können vorhersagen, wie Teilchen unter verschiedenen Bedingungen miteinander interagieren werden. Die US-Regierung verfügt außerdem über jahrzehntelang gesammelte Daten aus echten Atomtests. Wissenschaftler haben diese Informationen kombiniert, um Gleichungen in Computermodellen zu erstellen, die berechnen können, wie eine Nuklearexplosion abläuft und sich im Laufe der Zeit verändert.
Im Wesentlichen versucht man, eine Kettenreaktion abzubilden. Um die Modelle genau zu machen, wurden sie so konzipiert, dass sie eine nukleare Detonation auf molekularer Ebene vorhersagen und dabei die reale Physik berücksichtigen. Die Herausforderung besteht darin, dass die Berechnung all dieser Teilchen eine Menge Zahlenarbeit erfordert.
Suchen Sie nach Angeboten für die neueste Technik?
Dieser Newsletter kann Werbung, Angebote oder Partnerlinks enthalten. Mit dem Abonnieren eines Newsletters erklären Sie sich mit unseren Nutzungsbedingungen und Datenschutzrichtlinien einverstanden. Sie können den Newsletter jederzeit abbestellen.
Geben Sie Sierra ein. Der Supercomputer verfügt über 190.000 CPU-Prozessorkerne und 17.000 GPU-Kerne. Dank dieser Rechenleistung kann er eine riesige Aufgabe, wie die Simulation der Kernspaltung, in kleinere Teile zerlegen. Jeder Kern kann dann einen winzigen Teil der Simulation verarbeiten und die Ergebnisse an den Rest der Maschine weitergeben. Der Vorgang wiederholt sich immer wieder, während der Supercomputer versucht, eine Kernexplosion von einer Sekunde auf die andere zu modellieren.
„Man kann eine vollständige Simulation eines nuklearen Geräts im Computer durchführen“, fügte Bertsch hinzu. „
Eine Forschungsmaschine
Kabelcluster helfen Sierra beim Datenaustausch. Andere Kabel enthalten Wasser, um das System kühl zu halten.
Die Fähigkeit eines Supercomputers, Teilchenwechselwirkungen zu berechnen und zu modellieren, ist der Grund, warum er zu einem so wichtigen Werkzeug für Forscher geworden ist. In gewissem Sinne finden die Reaktionen überall um uns herum statt. Das kann das Wetter sein, die Entstehung eines Sterns oder der Kontakt menschlicher Zellen mit einem Medikament.
Ein Supercomputer kann all diese Wechselwirkungen simulieren. Wissenschaftler können dann aus den Daten nützliche Erkenntnisse gewinnen, z. B. ob es morgen regnen wird, ob eine neue wissenschaftliche Theorie stichhaltig ist oder ob eine neue Krebsbehandlung erfolgversprechend ist.
Mit denselben Technologien kann auch die Industrie zahllose neue Entwürfe erforschen und herausfinden, welche davon es wert sind, in der realen Welt getestet zu werden. Das ist der Grund, warum das Labor eine enorme Nachfrage nach seinen zwei Dutzend Supercomputern verzeichnet.
„Egal wie viel Rechenleistung wir hatten, die Leute verbrauchten sie und fragten nach mehr“, sagte Bertsch.
Das erklärt auch, warum die US-Regierung einen Exascale-Supercomputer will. Die zusätzliche Rechenleistung wird es den Wissenschaftlern ermöglichen, fortschrittlichere Simulationen zu entwickeln, wie z. B. die Nachbildung noch kleinerer Teilcheninteraktionen, die den Weg für neue Forschungsdurchbrüche ebnen könnten. Die Exascale-Systeme werden auch in der Lage sein, laufende Forschungsprojekte in kürzerer Zeit abzuschließen. „Was früher Monate gedauert hat, dauert jetzt vielleicht nur noch Stunden“, fügte Bertsch hinzu.
Ein Forscher verbindet sich online über einen Linux-PC mit einem Supercomputer im Labor. Ein ‚Job‘ kann einfach über eine Kommandozeilenanwendung in die Warteschlange gestellt werden.
Sierra ist Teil eines geheimen Netzwerks, das nicht mit dem öffentlichen Internet verbunden ist und etwa 1.000 zugelassenen Forschern in angeschlossenen wissenschaftlichen Programmen zur Verfügung steht. Etwa 3.000 Personen forschen an nicht klassifizierten Supercomputern, auf die man online zugreifen kann, sofern man ein Benutzerkonto und die richtigen Anmeldedaten hat. (Sorry, Bitcoin-Miner.)
„Wir lassen die Leute bei der Anschaffung des Computers mitmachen“, sagte Bertsch. „Der Geldbetrag, den man einzahlt, entspricht dem Prozentsatz der Maschine, die man gekauft hat.“
Ein Planungssystem wird verwendet, um einen „fairen Anteil“ an der Maschine sicherzustellen. „Es versucht, Ihre Nutzung auf den Ihnen zugewiesenen Prozentsatz zu lenken“, fügte Bertsch hinzu. „Wenn Sie im Laufe der Zeit weniger als Ihren fairen Anteil verbraucht haben, wird Ihre Priorität erhöht und Sie werden früher ausgeführt.“
Simulationen laufen ständig. Ein Supercomputer kann jederzeit Tausende von Aufträgen ausführen. Eine Maschine kann auch einen so genannten „Heldenlauf“ ausführen, d. h. einen einzelnen Auftrag, der so groß ist, dass der gesamte Supercomputer benötigt wird, um ihn in einer angemessenen Zeit abzuschließen.
Keeping It Up And Running
Das Innenleben eines anderen Supercomputers, Sequoia. Ein Rack unterscheidet sich nicht allzu sehr von einem Server.
Sierra ist ein Supercomputer, aber die Maschine wurde weitgehend aus handelsüblichen Teilen hergestellt. Die Prozessoren zum Beispiel sind Chips von IBM und Nvidia in Unternehmensqualität, und auf dem System selbst läuft Red Hat Enterprise Linux, ein bei Serveranbietern beliebtes Betriebssystem.
„Früher waren Supercomputer diese monolithischen, großen, esoterischen Hardwareklumpen“, sagt Robin Goldstone, der Architekt für Hochleistungsrechnerlösungen im Labor. „Heutzutage bestehen selbst die größten Systeme der Welt im Wesentlichen aus einer Reihe von Servern, die miteinander verbunden sind.“
Um seinen Nutzen zu maximieren, muss ein System wie Sierra in der Lage sein, verschiedene Arten von Forschung durchzuführen. Das Labor hat sich also vorgenommen, einen Allzweckrechner zu entwickeln. Aber auch ein Supercomputer ist nicht perfekt. Das Labor schätzt, dass Sierra alle 12 Stunden einen Fehler erleidet, bei dem es sich um eine Fehlfunktion der Hardware handeln kann. Das mag überraschend klingen, aber stellen Sie sich vor, Sie besitzen 100.000 Computer; Ausfälle und Reparaturen sind unvermeidlich.
„Die häufigsten Fehler sind wahrscheinlich Speicher-DIMMs, Netzteile und Lüfter“, so Goldstone. Glücklicherweise ist Sierra so groß, dass er über genügend Kapazität verfügt. Der Supercomputer erstellt außerdem routinemäßig Speicher-Backups für den Fall, dass ein Fehler ein Projekt unterbricht.
„Bis zu einem gewissen Grad ist dies nicht genau wie ein PC, den Sie zu Hause haben, aber eine Variante davon“, fügte Goldstone hinzu. „Nehmen Sie die Gamer, die davon besessen sind, den schnellsten Speicher und die schnellste GPU zu bekommen, und das ist dasselbe, wovon wir besessen sind.
Unter den Supercomputern befindet sich ein Rohrleitungssystem, das Wasser bei Raumtemperatur nach oben leitet, um die Maschinen zu kühlen. Sierra ist zu 80 Prozent wassergekühlt und zu 20 Prozent luftgekühlt.
Sierra selbst befindet sich in einem 47.000 Quadratmeter großen Raum, der vom Lärm der Ventilatoren erfüllt ist, die die Hardware kühlen. Eine Etage unter der Maschine befindet sich das Wasserpumpensystem des Gebäudes. Es kann jede Minute Tausende von Litern in die Rohre leiten, die dann in die Racks des Supercomputers fließen und das Wasser wieder nach draußen befördern.
An der Energiefront wurde das Labor so ausgestattet, dass es 45 Megawatt liefern kann – genug Strom für eine Kleinstadt. Etwa 11 dieser Megawatt wurden an Sierra delegiert. Der Stromverbrauch eines Supercomputers kann jedoch gelegentlich zu Beschwerden der örtlichen Energieversorger führen. Wenn eine Anwendung abstürzt, kann der Energiebedarf einer Maschine plötzlich um mehrere Megawatt sinken.
Das gefällt dem Energieversorger „überhaupt nicht. Denn sie müssen Last abwerfen. Sie zahlen für den Strom“, sagte Goldstone. „Sie haben uns angerufen und gesagt: ‚Könnt ihr das nicht mehr machen?'“
Die Exascale-Zukunft
Im vergangenen Jahr stand Sequoia auf Platz 10 der schnellsten Supercomputer der Welt. Er wird jedoch bald durch einen leistungsfähigeren Rechner ersetzt.
Das Lawrence Livermore National Lab beherbergt auch einen anderen Supercomputer namens Sequoia, der 2012 kurzzeitig die Weltspitze innehatte. Das Labor plant jedoch, ihn noch in diesem Jahr in den Ruhestand zu versetzen, um Platz für einen größeren und besseren Supercomputer namens El Capitan zu schaffen, der zu den von der US-Regierung geplanten Exascale-Supercomputern gehört.
Er soll 2023 in Betrieb gehen. Aber er wird nicht allein sein. El Capitan wird sich zwei anderen Exascale-Systemen anschließen, für deren Bau die USA über 1 Milliarde Dollar ausgeben. Beide werden 2021 in separaten Labors in Illinois und Tennessee fertiggestellt.
„Irgendwann denke ich immer: ‚Ist das nicht schnell genug? Wie viel schneller müssen diese Computer wirklich sein?'“ sagte Goldstone. „Aber es geht mehr darum, Probleme schneller zu lösen oder Probleme mit höherer Auflösung zu untersuchen, damit wir wirklich etwas auf molekularer Ebene sehen können.“
Aber die Supercomputing-Industrie wird sich irgendwann erneuern müssen. Es ist einfach nicht tragbar, immer größere Maschinen zu bauen, die mehr Strom verbrauchen und mehr Platz benötigen. „Wir stoßen an die Grenzen dessen, was die heutige Technologie leisten kann“, sagte sie. „
In der Zwischenzeit hat das Labor mit Anbietern wie IBM und Nvidia zusammengearbeitet, um unmittelbare Engpässe zu beseitigen, einschließlich der Verbesserung der Netzwerkarchitektur eines Supercomputers, damit er schnell zwischen den verschiedenen Clustern kommunizieren kann, sowie der Zuverlässigkeit der Komponenten. „Die Prozessorgeschwindigkeit spielt einfach keine Rolle mehr“, fügte sie hinzu. „
Das Labor wird in Zukunft weitere Einzelheiten über El Capitan bekannt geben. Was den Ersatzcomputer Sequoia betrifft, so ist das System auf dem besten Weg, in Vergessenheit zu geraten.
Aus Sicherheitsgründen plant das Labor, alle Teile der Maschine zu zerkleinern und ihre Überreste zu recyceln. Auf Supercomputern können geheime Regierungsdaten gespeichert werden, daher ist es wichtig, dass jede Spur dieser Informationen vollständig beseitigt wird – selbst wenn das bedeutet, dass die Maschine zu Schrott wird. Das mag extrem klingen, aber bei dem Versuch, die Daten virtuell zu löschen, können Fehler gemacht werden, so dass das Labor absolut sicher sein muss, dass die Daten endgültig verschwunden sind.