Dlaczego potrzebujemy superkomputerów i kto ich używa?

(Superkomputer Sierra w Lawrence Livermore National Laboratory w Kalifornii.)

Podczas gdy Stany Zjednoczone konkurują z Chinami o budowę najszybszych superkomputerów, można się zastanawiać, jak te gigantyczne maszyny są wykorzystywane.

Superkomputer może zawierać setki tysięcy rdzeni procesora i wymagać całego budynku do przechowywania i chłodzenia – nie wspominając o milionach dolarów na ich stworzenie i utrzymanie. Ale pomimo tych wyzwań, coraz więcej z nich ma trafić do sieci, ponieważ USA i Chiny opracowują nowe superkomputery „exascale”, które obiecują pięciokrotny wzrost wydajności w porównaniu z obecnymi wiodącymi systemami.

Kto więc potrzebuje całej tej mocy obliczeniowej i dlaczego? Aby się tego dowiedzieć, PCMag odwiedził Lawrence Livermore National Laboratory w Kalifornii, które jest domem dla kilku superkomputerów, w tym drugiego najszybszego na świecie, Sierra. To właśnie tam dowiedzieliśmy się, jak inżynierowie systemowi utrzymują maszyny, aby służyły naukowcom, ale także testują coś, czego można się nie spodziewać: broń jądrową.

System niejawny

Około 1000 osób utrzymuje superkomputery laboratorium i tworzy dla nich programy.

Kiedy odwiedzisz Sierrę, zauważysz słowa „tajne” i „tajne dane zastrzeżone” umieszczone na superkomputerze, który składa się z 240 szaf przypominających serwery. Ostrzeżenia istnieją, ponieważ Sierra przetwarza dane dotyczące amerykańskich zapasów nuklearnych, w tym tego, jak broń powinna wybuchać w rzeczywistym świecie.

Stany Zjednoczone przeprowadziły swój ostatni test broni nuklearnej na żywo w 1992 roku. Od tego czasu kraj używa superkomputerów, aby pomóc w wirtualnym przeprowadzaniu eksperymentów, a Sierra jest częścią tej misji. Maszyna została ukończona w zeszłym roku głównie po to, aby pomóc rządowi USA w monitorowaniu i testowaniu skuteczności starzejącego się arsenału nuklearnego kraju, który musi być rutynowo konserwowany.

„Środek odstraszania działa tylko wtedy, gdy wiesz, że może działać, i że twój przeciwnik również wie i wierzy, że działa” – powiedział Adam Bertsch, inżynier systemów obliczeń o wysokiej wydajności w laboratorium.

Przykłady symulacji przeprowadzonych w centrum superkomputerowym laboratorium. Po lewej eksperyment badawczy z zakresu energii termojądrowej polegający na podgrzewaniu i sprężaniu paliwa za pomocą 192 laserów. Po prawej symulacja hydrodynamiczna „trójpunktowej interakcji uderzeniowej”.

Nic dziwnego, że symulacja wybuchu jądrowego wymaga dużo matematyki. Fundamentalne zasady nauki mogą przewidzieć, jak cząsteczki będą oddziaływać ze sobą w różnych warunkach. Rząd USA posiada również dziesiątki lat danych zebranych podczas prawdziwych prób jądrowych. Naukowcy połączyli te informacje, aby stworzyć równania wewnątrz modeli komputerowych, które mogą obliczyć, jak wybuch jądrowy będzie przebiegał i zmieniał się w czasie.

Zasadniczo próbujesz odwzorować reakcję łańcuchową. Aby modele były dokładne, zaprojektowano je tak, by przewidywały detonację jądrową na poziomie molekularnym, wykorzystując fizykę świata rzeczywistego. Wyzwanie polega na tym, że obliczenie tego, co zrobią wszystkie te cząsteczki, wymaga dużej liczby obliczeń.

PCMag Tech Deals

Looking For Deals On The Latest Tech?

Niniejszy biuletyn może zawierać reklamy, oferty lub łącza partnerskie. Zapisanie się do biuletynu oznacza zgodę na nasze Warunki użytkowania i Politykę prywatności. Możesz zrezygnować z subskrypcji w dowolnym momencie.

Wejdź do Sierry. Ten superkomputer posiada 190 000 rdzeni procesora CPU i 17 000 rdzeni GPU. Cała ta moc obliczeniowa oznacza, że może on wykonać ogromne zadanie, takie jak symulacja rozszczepienia jądra atomowego, i podzielić je na mniejsze części. Każdy rdzeń może następnie przetworzyć niewielki fragment symulacji i przekazać wyniki do reszty maszyny. Proces ten będzie się powtarzał w kółko, ponieważ superkomputer będzie próbował modelować wybuch jądrowy z sekundy na sekundę.

„W komputerze można przeprowadzić pełną symulację urządzenia jądrowego” – dodaje Bertsch. „Można dowiedzieć się, że to działa, dokładnie jak dobrze działa i jakie efekty by wystąpiły.”

Maszyna badawcza

Klastry kabli pomagają Sierrze wymieniać dane. Inne kable zawierają wodę, aby utrzymać system w chłodzie.

Zdolność superkomputera do obliczania i modelowania interakcji cząsteczek jest powodem, dla którego stał się on tak ważnym narzędziem dla naukowców. W pewnym sensie, reakcje zachodzą wszędzie wokół nas. Może to obejmować pogodę, sposób formowania się gwiazdy lub kontakt komórek ludzkich z lekiem.

Superkomputer może symulować wszystkie te interakcje. Naukowcy mogą następnie wykorzystać te dane do zdobycia użytecznych informacji, takich jak to, czy jutro będzie padać deszcz, czy nowa teoria naukowa jest słuszna, lub czy nadchodzące leczenie raka jest obiecujące.

Te same technologie mogą również umożliwić przemysłowi zbadanie niezliczonych nowych projektów i ustalenie, które z nich warto przetestować w prawdziwym świecie. To właśnie dlatego laboratorium doświadczyło ogromnego popytu na swoje dwa tuziny superkomputerów.

„Bez względu na to, ile mocy obliczeniowej mieliśmy, ludzie wykorzystywali ją i prosili o więcej”, powiedział Bertsch.

To również wyjaśnia, dlaczego rząd USA chce superkomputera exascale. Dodatkowa moc obliczeniowa pozwoli naukowcom na opracowanie bardziej zaawansowanych symulacji, takich jak odtwarzanie jeszcze mniejszych oddziaływań cząsteczek, co może utorować drogę do nowych przełomów w badaniach. Systemy exascale będą również w stanie ukończyć bieżące projekty badawcze w krótszym czasie. „To, na co wcześniej trzeba było poświęcać miesiące, może zająć tylko godziny” – dodał Bertsch.

Badacz łączy się z superkomputerem w laboratorium online za pośrednictwem komputera z systemem Linux. Zadanie” może zostać ustawione w kolejce po prostu za pomocą aplikacji wiersza poleceń.

Sierra jest częścią niejawnej sieci niepodłączonej do publicznego Internetu, która jest dostępna dla około 1000 zatwierdzonych badaczy w powiązanych programach naukowych. Około 3000 osób prowadzi badania na niesklasyfikowanych superkomputerach, które są dostępne online pod warunkiem posiadania konta użytkownika i odpowiednich danych logowania. (Sorry, Bitcoin miners.)

„Mamy ludzi kupić do komputera w czasie nabycia,” Bertsch powiedział. „Ilość pieniędzy, które wkładasz, koreluje z procentem maszyny, którą kupiłeś.”

System planowania jest używany, aby zapewnić twój „sprawiedliwy udział” z maszyną. „Próbuje on kierować twoje wykorzystanie w kierunku procentu, który został ci przydzielony” – dodaje Bertsch. „Jeśli używałeś mniej niż twój sprawiedliwy udział w czasie, twój priorytet idzie w górę i będziesz uruchomiony wcześniej.”

Symulacje są zawsze uruchomione. Jeden superkomputer może wykonywać tysiące zadań w danym momencie. Maszyna może również przetwarzać coś, co nazywa się „hero run”, czyli pojedyncze zadanie, które jest tak duże, że cały superkomputer musi je wykonać w rozsądnym czasie.

Keeping It Up And Running

Wnętrzności innego superkomputera, Sequoia. Jedna półka nie różni się zbytnio od serwera.

Sierra jest superkomputerem, ale maszyna została w dużej mierze zbudowana z części commodity. Procesory, na przykład, to układy klasy korporacyjnej firm IBM i Nvidia, a sam system działa pod kontrolą Red Hat Enterprise Linux, popularnego systemu operacyjnego wśród producentów serwerów.

„Kiedyś superkomputery były monolitycznymi, wielkimi, ezoterycznymi bryłami sprzętu”, powiedział Robin Goldstone, architekt rozwiązań wysokowydajnych w laboratorium. „W dzisiejszych czasach nawet największe systemy na świecie to w zasadzie tylko kilka połączonych ze sobą serwerów.”

Aby maksymalnie wykorzystać system taki jak Sierra, musi on być zdolny do prowadzenia różnego rodzaju badań. Laboratorium postanowiło więc stworzyć maszynę uniwersalną. Ale nawet superkomputer nie jest doskonały. Laboratorium szacuje, że co 12 godzin w Sierrze wystąpi błąd, który może być związany z awarią sprzętu. Może się to wydawać zaskakujące, ale pomyślcie o tym jak o posiadaniu 100 000 komputerów; awarie i naprawy są nieuniknione.

„Najczęstsze rzeczy, które ulegają awarii to prawdopodobnie pamięci DIMM, zasilacze, wentylatory” – powiedział Goldstone. Na szczęście Sierra jest tak ogromna, że ma wystarczającą pojemność. Superkomputer rutynowo tworzy też kopie zapasowe pamięci na wypadek, gdyby jakiś błąd zakłócił pracę nad projektem.

„Do pewnego stopnia nie jest to dokładnie taki sam komputer, jaki mamy w domu, ale jest to pewien jego smaczek” – dodał Goldstone. „Weźmy na przykład graczy, którzy mają obsesję na punkcie najszybszej pamięci i najszybszego procesora graficznego – to jest to samo, na czym my mamy obsesję. Wyzwaniem dla nas jest to, że mamy tak wiele działających w tym samym czasie.”

Pod superkomputerami znajduje się system rur, które wysyłają w górę wodę o temperaturze pokojowej, aby utrzymać maszyny w chłodzie. Sierra jest w 80 procentach chłodzona wodą, w 20 procentach powietrzem.

Sierra siedzi w pomieszczeniu o powierzchni 47 000 stóp kwadratowych, które jest wypełnione szumem wentylatorów utrzymujących sprzęt w chłodzie. Poziom poniżej maszyny znajduje się system pompowania wody w budynku. W każdej minucie może on przesyłać tysiące galonów do rur, które następnie zasilają stojaki superkomputera i wypuszczają wodę z powrotem.

Na froncie zasilania laboratorium zostało wyposażone tak, aby dostarczać 45 megawatów – czyli wystarczająco dużo energii elektrycznej dla małego miasta. Około 11 z tych megawatów zostało oddelegowanych do Sierry. Jednak zużycie energii przez superkomputer może od czasu do czasu wywoływać skargi lokalnych firm energetycznych. Gdy jakaś aplikacja się zawiesi, zapotrzebowanie maszyny na energię może nagle spaść o kilka megawatów.

Dostawcy energii „wcale tego nie lubią. Ponieważ muszą zrzucić obciążenie. Płacą za prąd” – powiedział Goldstone. „Wywołali nas przez telefon i powiedzieli, 'Czy możecie już tego nie robić?'”

Przyszłość Exascale

W zeszłym roku Sequoia uplasowała się na 10 miejscu najszybszych superkomputerów na świecie. Jednak wkrótce zostanie zastąpiony przez potężniejszą maszynę.

Lawrence Livermore National Lab jest również domem dla innego superkomputera o nazwie Sequoia, który krótko królował jako najlepszy system na świecie w 2012 roku. Ale laboratorium planuje wycofać go jeszcze w tym roku, aby zrobić miejsce dla większego i lepszego superkomputera, zwanego El Capitan, który jest wśród superkomputerów exascale, jakie planuje rząd USA.

Spodziewaj się, że zostanie on uruchomiony w 2023 roku. Ale nie będzie on sam. El Capitan dołączy do dwóch innych systemów exascale, na których budowę Stany Zjednoczone wydają ponad 1 miliard dolarów. Oba zostaną ukończone w 2021 roku w oddzielnych laboratoriach w Illinois i Tennessee.

„W pewnym momencie ciągle myślę: 'Czy to nie jest wystarczająco szybkie? O ile szybciej naprawdę potrzebujemy, aby te komputery były?” powiedział Goldstone. „Ale chodzi raczej o możliwość szybszego rozwiązywania problemów lub badania problemów w wyższej rozdzielczości, dzięki czemu możemy naprawdę zobaczyć coś na poziomie molekularnym.”

Ale przemysł superkomputerowy w końcu będzie musiał wprowadzić innowacje. Kontynuowanie budowy większych maszyn, które zużywają więcej energii i zajmują więcej miejsca, jest po prostu nie do utrzymania. „Przesuwamy granice tego, co dzisiejsza technologia może zrobić”, powiedziała. „W międzyczasie laboratorium współpracuje z dostawcami takimi jak IBM i Nvidia, aby rozwiązać bezpośrednie wąskie gardła, w tym poprawić architekturę sieciową superkomputera, tak aby mógł on szybko komunikować się pomiędzy różnymi klastrami, jak również niezawodność komponentów. „Szybkość procesora nie ma już znaczenia” – dodaje. „Jak szybkie są procesory, ogranicza nas przepustowość pamięci.”

Laboratorium ogłosi więcej szczegółów na temat El Capitan w przyszłości. Jeśli chodzi o komputer, który został zastąpiony, Sequoia, system zmierza ku zapomnieniu.

Dla celów bezpieczeństwa, laboratorium planuje zmielić każdy kawałek maszyny i poddać jej pozostałości recyklingowi. Superkomputery mogą obsługiwać tajne dane rządowe, więc ważne jest, aby wszelkie ślady tych informacji zostały całkowicie usunięte – nawet jeśli oznacza to przerobienie maszyny na złom. Może to brzmieć ekstremalnie, ale przy próbie wirtualnego usunięcia danych można popełnić błędy, więc laboratorium musi mieć absolutną pewność, że dane zniknęły na stałe.