東京大学情報基盤センター スーパーコンピューティング部門

Oakforest-PACS スーパーコンピュータシステム
「大規模 HPC チャレンジ」採択課題

2021年度 採択課題

このたびは、お申し込みをいただきどうもありがとうございました。以下の基準による厳正な審査のうえ、課題採択をさせていただきました(順不同)。
※新型コロナ感染症拡大防止に配慮して、一部条件等を変更しています。

  • 計算・結果の詳細を論文等も含めて公表できること。
  • 計算結果が科学的に有用、あるいは社会的なインパクトがあると考えられること。
  • flatモード4,200ノード、またはcacheモード3,200ノード、あるいはその両方の利用を目標としていること。
  • 計画に実現性があり、短時間で効果を示すことが可能であること (一回の利用期間は約 8 時間)。
  • 本センターの運用、ユーザーにとって有用な情報を提供すること。(加点評価項目)
第1回採択課題 | 第2回採択課題 | 第3回採択課題

第1回採択課題

課題名 温水冷却方式の効率に関する定量的評価に向けて
代表者名(所属) 庄司 文由(理化学研究所 計算科学研究センター 運用技術部門)
近年、温水冷却技術は、HPCシステムの冷却にかかるエネルギー効率を改善するために、多くのHPCセンターおよびデータセンターで採用されている。温水冷却においては、CPU等の冷水温度を高く設定することで、外気による自然な冷却が促されるため、冷凍機等を駆動するための電力が節約できる。一方で、CPU等のシリコンから構成される半導体は、高温で動作させればさせるほど、漏れ電流の増加により、消費電力が増加することが知られている。また、近年のCPUは、駆動温度や負荷が一定の水準を超えると、故障を回避するために自動的にクロック周波数や電圧を下げる機構を備えている。このため、温水冷却の効果を正しく評価するためには、冷却の電力を節約できるというポジティブな点に加え、上記のような消費電力の増加や、演算性能の低下のようなネガティブな点も等しく考慮に入れる必要がある。特にクロック周波数の低下による影響は、大規模なジョブでより深刻になると予想される。一般的に、CPU(プロセス)間で同期を取る際の性能は、最も遅いCPU(プロセス)に律速されるからである。以上を踏まえ、本研究では、単体および複数のCPUを使う様々なジョブを、異なる冷水温度で実行し、消費電力の増加および演算性能の低下を定量的に分析する。左記の分析に基づき、効率的な施設運用の実現に向けた、運用手順の確立を目指す。特に今回は、前回採択いただいた2019年10月の大規模HPCチャレンジで十分なデータが得られなかった複数CPUを使うジョブのケースについて重点的に調査したい。

▲ 採択課題 TOPへ

第2回採択課題

課題名 並列多重格子法ソルバーの最適化および性能評価
代表者名(所属) 中島 研吾(東京大学情報基盤センター)
連立一次方程式の解法の一種である多重格子法(multigrid method)は,反復回数が問題規模に依存しない,スケーラブルな解法であり,特に大規模問題に適した手法として知られているが,超並列環境下では性能低下が生じる可能性がある。提案者等はこれまでCGA(Coarse Grid Aggregation),hCGA(Hierarchical CGA),AM-hCGA(Adaptive Multilevel hCGA)法などの手法を提案し,MPI プロセス数が105 以上の場合にも,スケーラビリティを保つことに成功している。また,OS 軽量カーネルであるMcKernel の適用により,超並列環境下で通信のオーバーヘッドを削減することによって,OFP 2,048ノードを利用した場合,20%以上の性能向上が可能であることも明らかになっている。本研究では,並列多重格子法による三次元地下水シミュレーションプログラム pGW3D-FVM を対象として,SIMD ベクトル化に適したSELLC-sに基づく疎行列格納法,混合精度演算導入によるノード単体の高速化を図り,最大4,096 ノードを使用して,McKernel 適用の効果を様々な設定のOpenMP/MPI ハイブリッド並列プログラミングモデルにおいて評価する。更に,現在開発中の動的ループスケジューリングに基づく通信と計算のオーバーラップによる新手法についても評価を実施する。

▲ 採択課題 TOPへ

課題名 温水冷却方式の効率に関する定量的評価に向けて
代表者名(所属) 庄司 文由 (理化学研究所 計算科学研究センター 運用技術部門)
近年、温水冷却技術は、HPC システムの冷却にかかるエネルギー効率を改善するために、多くの HPC センターおよびデータセンターで採用されている。温水冷却においては、CPU 等の冷水温度を高く設定することで、外気による自然な冷却が促されるため、 冷凍機等を駆動するための電力が節約できる。
一方で、CPU 等のシリコンから構成される半導体は、高温で動作させればさせるほど、 漏れ電流の増加により、消費電力が増加することが知られている。また、近年のCPU は、駆動温度や負荷が一定の水準を超えると、故障を回避するために自動的にクロック周波数 や電圧を下げる機構を備えている。このため、温水冷却の効果を正しく評価するためには、冷却の電力を節約できるというポジティブな点に加え、上記のような消費電力の増加や、演算性能の低下のようなネガティブな点も等しく考慮に入れる必要がある。特にクロック周波数の低下による影響は、大規模なジョブでより深刻になると予想される。一般的に、CPU(プロセス)間で同期を取る際の性能 は、最も遅い CPU(プロセス)に律速されるからである。以上を踏まえ、本研究では、単体および複数のCPU を使う様々なジョブを、異なる冷水温度で実行し、消費電力の増加および演算性能の低下を定量的に分析する。左記の分析に基づき、効率的な施設 運用の実現に向けた、運用手順の確立を目指す。
今回は、前回(2019 年10 月)および前々回(2021 年6 月)の大規模HPC チャレンジで十分なデータが得られなかった複数CPU を使うジョブのケースについて重点的に調査したい。前回も複数CPU を使うジョブのケースの調査を行ったが、その際、並列ジョブを流すためのCPUのグループ分けにLINPACKの単体CPU性能データを考慮せずに行ったため、グループ間での性能差がクリアに見えなかった。今回は、LINPACK の実行性能に基づいたグルーピングを実施することで、複数CPUを使うジョブを実行した際の性能への影響を直接的かつ定量的に分析できると考えている。

▲ 採択課題 TOPへ

第3回採択課題

課題名 並列前処理付き反復法ソルバーの最適化および性能評価
代表者名(所属) 中島 研吾(東京大学情報基盤センター)
有限要素法,差分法等の偏微分方程式数値解法は,大規模な疎行列を係数行列とする連立一次方程式を解くことに帰着される。昨今は前処理付きクリロフ部分空間法が幅広いアプリケーションに使用されている。本研究では,代表者の開発した,ICCG法ソルバーの最適化,性能評価を実施し,Oakforest-PACS(OFP)システムに代表されるメニィコアクラスタにおける前処理付きクリロフ部分空間法の挙動に関する知見を得ることを目的とする。有限要素法による三次元固体力学コードGeoFEMのICCGソルバーを対象として,Intel® MPI Library 2019でサポートされるAsynchronous Progress Threadsの機能を使用して,内積における集団通信を計算とオーバーラップさせるパイプライン型共役勾配法の高速化を実施する。更に,メニーコア向けOS軽量カーネルであるIHK/McKernelを適用した評価も併せて実施する。

▲ 採択課題 TOPへ