スーパーコンピュータはなぜ必要なのか、誰が使っているのか?

, Author

カリフォルニア州ローレンス リバモア国立研究所のスーパーコンピューター「Sierra」。

米国が中国と最速のスーパーコンピューターの構築を競う中、これらの巨大マシンがどう使われているのか気になる方もいるかもしれません。 しかし、こうした課題にもかかわらず、米国と中国が新しい「エクサスケール」スーパーコンピュータを開発し、現在の主要なシステムと比較して 5 倍の性能向上を約束したため、ますます多くのコンピュータがオンライン化される予定です。 PCMagは、それを知るために、カリフォルニア州のローレンス・リバモア国立研究所を訪れました。ここには、世界で2番目に高速な「Sierra」を含む、複数のスーパーコンピュータがあります。 そこで私たちは、科学研究者のためにマシンを維持しながら、核兵器という意外なものをテストするために、システム エンジニアがどのようにマシンを維持しているかを学びました。

Sierraを訪れると、240台のサーバーのようなラックで構成されたスーパーコンピュータに「機密」「秘密の制限データ」という文字が貼られていることに気がつくでしょう。 この警告は、Sierra が米国の核兵器備蓄に関わるデータを処理しているためで、現実の世界でどのように核兵器を爆発させるべきかが含まれています。 それ以来、米国はスーパーコンピュータを使用して仮想的に実験を行う手助けをしており、Sierra はその任務の一部です。 このマシンは、主に、定期的なメンテナンスが必要な、老朽化した核兵器の有効性を監視し、テストするために、米国政府を支援するために昨年完成したのです。

「抑止力が機能する唯一の方法は、それが機能することを知っていて、敵もそれが機能すると知っていて信じている場合です」と、研究所のハイパフォーマンス コンピューティング システム エンジニアである Adam Bertsch 氏は述べています。 左側は、192 本のレーザーで燃料ターゲットを加熱および圧縮する核融合エネルギー研究実験です。 右は、「三点衝撃相互作用」の流体力学関連のシミュレーションです。

当然のことながら、核爆発のシミュレーションには多くの数学が必要です。 科学における基礎的な原理は、異なる条件下で粒子がどのように相互作用するかを予測することができます。 また、米国政府は、実際の核実験から収集した数十年にわたるデータを保有しています。 科学者たちはこの情報を組み合わせて、コンピューターモデル内の方程式を作成し、核爆発がどのように起こり、時間とともにどのように変化するかを計算することができます。 そのため、モデルを正確にするために、現実の物理学を使って分子レベルで核爆発を予測するように設計されています。 このような場合、「ディアボロス」は、「ディアボロス」を「ディアボロス」と呼ぶことにします。 また、「My Favorite Enemies」キャンペーンを実施中です。

「Sierra」を入力します。 19万個のCPUプロセッサーコアと1万7000個のGPUコアを持つスーパーコンピュータです。 これだけの計算能力があれば、核分裂のシミュレーションのような巨大なタスクも、細かく分割して処理することが可能です。 各コアは、シミュレーションの小さな塊を処理し、その結果を他のマシンに伝達することができます。 このプロセスは、スーパーコンピュータが核爆発を1秒から次の秒までモデル化しようとするときに、何度も何度も繰り返されることになります。 と、Bertsch 氏は付け加えました。「それが機能すること、正確にどの程度機能するのか、どのような影響が起こるのかを知ることができます」

A Research Machine

ケーブル クラスターは Sierra のデータ交換に役立っています。 他のケーブルには、システムを冷却するための水が含まれています。

粒子の相互作用を計算し、モデル化するスーパーコンピューターの能力は、研究者にとって重要なツールとなっています。 ある意味、私たちの身の回りで反応は起こっているのです。 たとえば、天気、星の形成、人間の細胞が薬物に接触したときなどです。

スーパーコンピューターは、これらの相互作用をすべてシミュレートすることができます。 科学者はそのデータから、明日雨が降るかどうか、新しい科学的理論が有効かどうか、今度のがん治療が有望かどうかなど、有用な洞察を得ることができます。 また、米国政府がエクサスケールのスーパーコンピューターを欲しがっている理由も、このことが関係しています。 余分な計算能力によって、科学者はより高度なシミュレーションを開発できるようになり、たとえば、さらに小さな粒子の相互作用を再現することができるようになり、新しい研究のブレークスルーへの道が開けるかもしれません。 また、エクサスケールシステムは、現在の研究プロジェクトをより短時間で完了させることができるようになります。 「以前は何ヶ月もかけて行っていたことが、数時間で済むかもしれません」と、Bertsch 氏は付け加えました。

研究者は、Linux PC を介して、ラボのスーパーコンピューターにオンラインで接続します。 ジョブ」は、コマンドライン アプリケーションを使用するだけでキューに入れることができます。

Sierraは、公共のインターネットに接続されていない機密ネットワークの一部であり、提携する科学プログラムの約1,000人の承認された研究者が利用できます。 約3,000人が未分類のスーパーコンピュータで研究を行っており、ユーザーアカウントと正しいログイン認証があれば、オンラインでアクセス可能です。 (ビットコインの採掘者の皆さん、ごめんなさい。)

「私たちは、コンピュータを購入するときに、人々に購入してもらいます」と、Bertsch氏は述べています。 「あなたが入れた金額は、あなたが買ったマシンの割合に相関しています」

マシンの「公正なシェア」を確保するために、スケジュール・システムが使用されます。 「と、Bertschは付け加えました。「これは、あなたの使用量を、あなたが割り当てられた割合に近づけようとするものです。 「時間の経過とともに使用量が公平な割合より少なくなった場合、優先順位が上がり、早く実行されるようになります」

シミュレーションは常に実行されています。 1 台のスーパーコンピューターで、いつでも何千ものジョブを実行できます。 また、「ヒーローラン」と呼ばれる、スーパーコンピュータ全体が妥当な時間で完了しなければならないほど大きな1つのジョブを処理することも可能です。 1 つのラックはサーバーとあまり変わりません。

Sierra はスーパーコンピューターですが、マシンの大部分は汎用部品で作られています。 たとえば、プロセッサは IBM および Nvidia のエンタープライズグレードのチップであり、システム自体はサーバー ベンダーの間で人気のある OS である Red Hat Enterprise Linux を実行します。

「かつて、スーパーコンピューターは、モノリシックで大きな、難解なハードウェアの塊でした」と、研究所の高性能コンピューティング ソリューション設計者 Robin Goldstone は述べています。 「最近では、世界最大のシステムでさえも、基本的に多くのサーバーが接続されているだけです。 そこで研究所は、万能のマシンを作ることにしたのです。 しかし、スーパーコンピューターといえども、完璧ではありません。 研究所の試算では、Sierraは12時間ごとにハードウェアの故障を伴うエラーが発生するという。 意外に思われるかもしれませんが、10 万台のコンピューターを所有していると考えてみてください。 幸いなことに、Sierra は非常に巨大であるため、十分な容量があります。 このスーパーコンピューターは、エラーによってプロジェクトが中断した場合に備えて、日常的にメモリのバックアップを作成しています。

「ある程度は、これは自宅にある PC と全く同じではありませんが、そのような風味です」と、Goldstone は付け加えます。 「最速のメモリや最速の GPU を手に入れることに執着するゲーマーを例にとれば、私たちが執着していることはそれと同じです。 私たちの課題は、同時に非常に多くのものを動かすことです」

スーパーコンピューターの下には、マシンを冷却するために室温の水を送り込む配管システムがあります。 Sierra は 80% が水冷式、20% が空冷式です。

Sierra 自体は 47,000 平方フィートの部屋にあり、ハードウェアを冷却するファンの音で満たされています。 マシンの1つ下の階には、ビルの水ポンプシステムがあります。 毎分数千ガロンの水をパイプに送り、パイプはスーパーコンピューターのラックに送り込み、水を循環させます。

電力面では、研究所は45メガワット(小さな都市に相当する電力)を供給できるように設備されています。 このうち約11メガワットがSierraに割り当てられています。 しかし、スーパーコンピュータの消費電力は、時として地域のエネルギー会社からクレームを受けることがある。 アプリケーションがクラッシュすると、マシンのエネルギー需要が突然数メガワット低下することがあるのです。 エネルギー供給会社は「それをまったく好みません。 彼らは電力料金を支払っているのですから」とゴールドストーンは言います。 彼らは私たちを電話で呼び出し、「これ以上やらないでくれませんか」と言ったのです」

The Exascale Future

昨年、Sequoia は世界で 10 番目に速いスーパーコンピューターとしてランク付けされました。 しかし、まもなく、より強力なマシンに置き換えられる予定です。

ローレンス リバモア国立研究所には、Sequoia という別のスーパーコンピュータもあり、2012 年に一時的に世界トップのシステムとして君臨していました。 El Capitan は、米国政府が計画しているエクサスケール スーパーコンピューターの 1 つです。

2023年にオンラインになる予定です。 しかし、これは単独ではありません。 El Capitan は、米国が 10 億ドル以上を投じて建設している他の 2 つのエクサスケール システムに加わります。 どちらも、イリノイ州とテネシー州の別々の研究所で 2021 年に完成する予定です。

「ある時点で、『十分速いのではないか』と考え続けています。 これらのコンピュータが本当に必要な速度はどれくらいなのだろう?”と。 と Goldstone は述べています。 「しかし、問題をより速く解決したり、問題をより高い解像度で研究したりすることで、分子レベルで何かを本当に見ることができるようになることが重要なのです。 より多くの電力を消費し、より多くの物理的スペースを必要とする、より大きなマシンを作り続けることは、単に持続不可能なことなのです。 「私たちは、今日のテクノロジーでできることの限界に挑戦しているのです」と彼女は言います。 「その一方で、研究所は IBM や Nvidia などのベンダーと協力して、異なるクラスター間で迅速に通信できるようにスーパー コンピューターのネットワーク アーキテクチャを改善したり、部品の信頼性を高めるなど、当面のボトルネックの解決に取り組んできました。 「また、「プロセッサの速度は、もはや重要ではありません。 「プロセッサが高速であればあるほど、私たちはメモリ帯域幅に制約されるのです」

研究所は、El Capitan についての詳細を将来発表する予定です。 セキュリティのために、研究所はマシンのあらゆる部分を粉砕し、その残骸をリサイクルすることを計画しています。 スーパーコンピュータは、政府の機密データを実行することになるため、その情報の痕跡を完全に消去することが極めて重要です – マシンをスクラップにすることを意味しても。 極端に聞こえるかもしれませんが、データを仮想的に削除しようとするとエラーが発生する可能性があるため、研究所ではデータが永久に消えていることを絶対に確認する必要があるのです。

コメントを残す

メールアドレスが公開されることはありません。