HOME > サービス案内 > 大規模 HPC チャレンジ > 採択課題

FX10 スーパーコンピュータシステム「大規模 HPC チャレンジ」採択課題

2013年度　採択課題決定

　このたびは、お申し込みをいただきどうもありがとうございました。以下の基準による厳正な審査のうえ、課題採択をさせていただきました（順不同）。

自作コード、またはオープンソースプログラムによる研究であること。
当該コードについて、1,000 コア以上の利用実績があること。または、センターで実施してきた、「512 ノードサービス」、「512 ノード利用大規模 HPC 研究」での利用実績があること。
計算結果が科学的に有用、あるいは社会的なインパクトがあると考えられること。
本センターの運用、ユーザーにとって有用な情報を提供すること。
4,800 ノードの利用を目標としていること。
計画に実現性があり、短時間で効果を示すことが可能であること (一回の利用期間は最大 24 時間）。

第1回採択課題　|　第2回採択課題　|　第3回採択課題

第1回採択課題

課題名	代表者名代表者所属	概要
大規模悪条件問題向け並列疎行列ソルバーの性能評価	中島研吾東京大学情報基盤センター	有限要素法、差分法等の科学技術計算は最終的には大規模な疎行列を係数とする線形方程式を解くことに帰着される。大規模問題向けの解法として、クリロフ部分空間法に基づく前処理付反復法が広く使用されている。本研究では科学技術計算に現れる悪条件マトリクス向けの前処理手法として、スケーラビリティに優れたASDD-ILU（0）並列マルチグリッド法、安定した収束を実現する拡張階層型領域分割法に着目し、通信と計算のオーバーラップの導入など、通信オーバーヘッド削減のための並列アルゴリズムの改良を実施する。また、申込者が開発、最適化したFujitsu FX10のインターコネクトが有するRDMA（Remote Direct Memory Access）機能に基づくPersistent CommunicationをサポートするMPIライブラリを適用し、更なる最適化を図る。これらの研究成果を数値計算ライブラリ、通信ライブラリとしてFX10利用者に公開する予定である。

課題名

代表者名
代表者所属

概要

大規模悪条件問題向け並列疎行列ソルバーの性能評価

中島研吾

東京大学
情報基盤センター

　有限要素法、差分法等の科学技術計算は最終的には大規模な疎行列を係数とする線形方程式を解くことに帰着される。大規模問題向けの解法として、クリロフ部分空間法に基づく前処理付反復法が広く使用されている。本研究では科学技術計算に現れる悪条件マトリクス向けの前処理手法として、スケーラビリティに優れたASDD-ILU（0）並列マルチグリッド法、安定した収束を実現する拡張階層型領域分割法に着目し、通信と計算のオーバーラップの導入など、通信オーバーヘッド削減のための並列アルゴリズムの改良を実施する。また、申込者が開発、最適化したFujitsu FX10のインターコネクトが有するRDMA（Remote Direct Memory Access）機能に基づくPersistent CommunicationをサポートするMPIライブラリを適用し、更なる最適化を図る。これらの研究成果を数値計算ライブラリ、通信ライブラリとしてFX10利用者に公開する予定である。

▲ 採択課題 TOPへ

第2回採択課題

課題名	代表者名代表者所属	概要
太陽対流層グローバル計算による黒点形成過程の研究	堀田英之東京大学理学系研究科	太陽表面には、黒点と呼ばれる3万km程度(太陽半径70万km)の強磁場領域がしばしば観測される。黒点の存在自体は、紀元前から知られているが、その生成要因・過程については明らかになっていない。本申請研究は磁気流体数値計算を用いて、太陽対流層を分解し、黒点の生成過程を理解しようというものである。これまでにも太陽対流層表面付近のみを計算領域として、黒点形成を調査した研究はあるのであるが、小さい計算領域ではセルフコンシステントに扱えない大きなスケールの流れが、黒点形成には重要だという事がわかっている。本研究では、太陽対流層の底から表面付近までを計算領域として、大きな流れの自発的な生成も含めて黒点形成をシミュレートする。対流層の底から表面までに大きく典型的空間スケール・時間スケールが変わるので、極めて多くのグリッド数・時間積分を要する挑戦的な課題である。
改良型 hCGA 法（Hierarchical Coarse Grid Aggregation）に基づく並列多重格子法ソルバーの性能評価	中島研吾東京大学情報基盤センター	連立一次方程式の反復解法、前処理手法としての多重格子法は、問題規模が増加しても収束までの反復回数が変化しないスケーラブルな手法であり、大規模問題向けの解法として注目されている。並列計算においてもその効果が確認されているが、コア数が増加した場合、特に粗いレベルにおける通信によるオーバーヘッドによる低下が懸念されている。この問題を解決するために、申込者はこれまでに、CGA 法（Coarse Grid Aggregation）、その改良版であるhCGA 法（Hierarchical CGA）を提案し、Oakleaf-FX 4,096 ノードを使用して高いスケーラビリティを得られることを示して来た。本提案ではMPI の片方向通信の適用等によりhCGA 法を更に改良し、性能を評価する。　OpenMP/MPI ハイブリッド並列プログラミングモデル、並列多重格子前処理付き反復法を使用した、三次元有限体積法に基づく不均質場における地下水流れ問題シミュレーションに適用することによって有効性を確認する。
大規模グラフ処理ベンチマーク Graph500 のスケーラブルな探索手法による性能評価	鈴村豊太郎東京工業大学大学院情報理工学研究科	Graph500は、大規模グラフに対する幅優先探索の速度を計測するベンチマークである。本来は、スパコンハードウェアのベンチマークであるが、アルゴリズムの改良や新しい計算手法の研究による性能向上が著しい。　2012年9月の大規模HPCチャレンジを利用して実行したベンチマークでは、幅優先探索において609 GTEPSの性能を達成し、また、2013年3月には996.2 GTEPSを達成し、現在Oakleaf-FXはGraph500リストで13位となっている。今回は、実行の仕方を改良し、1000GTEPSを超えることを目指す。また、Graph500ベンチマークへの新しく導入が予定されている最短経路問題についても、独自のスケーラブルな探索手法で性能を計測する。

課題名

代表者名
代表者所属

概要

太陽対流層グローバル計算による黒点形成過程の研究

堀田英之

東京大学
理学系研究科

　太陽表面には、黒点と呼ばれる3万km程度(太陽半径70万km)の強磁場領域がしばしば観測される。黒点の存在自体は、紀元前から知られているが、その生成要因・過程については明らかになっていない。本申請研究は磁気流体数値計算を用いて、太陽対流層を分解し、黒点の生成過程を理解しようというものである。これまでにも太陽対流層表面付近のみを計算領域として、黒点形成を調査した研究はあるのであるが、小さい計算領域ではセルフコンシステントに扱えない大きなスケールの流れが、黒点形成には重要だという事がわかっている。本研究では、太陽対流層の底から表面付近までを計算領域として、大きな流れの自発的な生成も含めて黒点形成をシミュレートする。対流層の底から表面までに大きく典型的空間スケール・時間スケールが変わるので、極めて多くのグリッド数・時間積分を要する挑戦的な課題である。

改良型 hCGA 法（Hierarchical Coarse Grid Aggregation）に基づく並列多重格子法ソルバーの性能評価

中島研吾

東京大学
情報基盤センター

　連立一次方程式の反復解法、前処理手法としての多重格子法は、問題規模が増加しても収束までの反復回数が変化しないスケーラブルな手法であり、大規模問題向けの解法として注目されている。並列計算においてもその効果が確認されているが、コア数が増加した場合、特に粗いレベルにおける通信によるオーバーヘッドによる低下が懸念されている。この問題を解決するために、申込者はこれまでに、CGA 法（Coarse Grid Aggregation）、その改良版であるhCGA 法（Hierarchical CGA）を提案し、Oakleaf-FX 4,096 ノードを使用して高いスケーラビリティを得られることを示して来た。本提案ではMPI の片方向通信の適用等によりhCGA 法を更に改良し、性能を評価する。
　OpenMP/MPI ハイブリッド並列プログラミングモデル、並列多重格子前処理付き反復法を使用した、三次元有限体積法に基づく不均質場における地下水流れ問題シミュレーションに適用することによって有効性を確認する。

大規模グラフ処理ベンチマーク Graph500 のスケーラブルな探索手法による性能評価

鈴村豊太郎

東京工業大学大学院
情報理工学研究科

　Graph500は、大規模グラフに対する幅優先探索の速度を計測するベンチマークである。本来は、スパコンハードウェアのベンチマークであるが、アルゴリズムの改良や新しい計算手法の研究による性能向上が著しい。
　2012年9月の大規模HPCチャレンジを利用して実行したベンチマークでは、幅優先探索において609 GTEPSの性能を達成し、また、2013年3月には996.2 GTEPSを達成し、現在Oakleaf-FXはGraph500リストで13位となっている。今回は、実行の仕方を改良し、1000GTEPSを超えることを目指す。また、Graph500ベンチマークへの新しく導入が予定されている最短経路問題についても、独自のスケーラブルな探索手法で性能を計測する。

▲ 採択課題 TOPへ

第3回採択課題

課題名	代表者名代表者所属	概要
固有値ソルバー EigenExa の大規模並列実行時の詳細な性能評価	今村俊幸理化学研究所計算科学研究機構	現在、「京」やその先のスパコンを念頭において、ScaLAPACKに代わる新たな密行列固有値ソルバーEigenExaの開発を進めている。これまでの性能評価の結果、EigenExaがプログラム全体の実行時間や強スケーリングにおいてScaLAPACKよりも優れていることを確認している。一方で、プログラム内部のパラメータや並列実行時の条件による性能の変化など、今後の高性能化に向けた開発・チューニングや実利用のために必要となる、プログラムの挙動の詳細が不明である。　そこで、本研究課題では、様々な条件の下でEigenExaを並列実行させて細部にわたる性能測定を行う。同時に、測定方法も複数試して、測定の際のオーバーヘッド等の検証も行う。そして、得られた測定結果について、性能モデルなどを交えながら解析を行い、EigenExaの高性能化や利用の効率化につなげるとともに、密行列向けの並列計算プログラムの開発全般にも有益となる知見を明らかにすることを目指す。
分散メモリ並列計算機向けタスク並列ランタイムシステムの性能評価	秋山茂樹東京大学情報理工学系研究科	タスク並列プログラミングは、プログラムを容易に並列化できる手法として主に共有メモリ計算機上で広く用いられてきた。一方で分散メモリ計算機上では、近年研究が進められてきているものの、共有メモリ計算機で行われるような一般的なタスク並列モデルをスケーラブルに実現するには至っていない。当研究グループでは、分散メモリ向け処理系では実現されていなかった共有メモリ向けタスク並列モデルの実装手法を、タスクの実装方法を工夫することによって分散メモリ計算機上に実現した。これによって、既存手法で制約のあったタスクスケジューリングの余地を増やすことができ、一般的なタスク並列モデルを採用することによるスケーラビリティの低下を緩和できる。　本課題では、当研究グループが提案するタスク並列実装と既存手法について、負荷分散性能を詳細に分析する。既存の処理系では、プロセッサ数が1万を越えるような大規模な計算機上で性能評価を行った例はなく、特にその点に着目した性能解析を実施し、より大規模な計算機上でのタスク並列処理系の実現可能性について検討する。
代数的多重格子法における粗いレベルの領域集約手法の評価	藤井昭宏工学院大学情報学部	代数的多重格子法はマルチレベルで、有力な解法の一つとして知られている。ただ、粗いレベルは行列の非ゼロ要素数も増え、サイズも小さくなり、数千から数万プロセスで処理をそのまま実行することは性能劣化につながる。そのため、粗いレベルで適切に並列度を集約させる手法が重要になる。　本研究では粗いレベルの領域を適宜集約していく手法を代数的多重格子法に実装し、評価を行う。粗いレベルの行列生成後に行列の再分散を実施している研究例はあるが、代数的多重格子法に対して並列度を集約した粗いレベルの行列を直接作成している研究結果を提示しているものはまだ知られていない。　領域集約の手法はアグリゲート生成時に領域間の組み合わせを決めることで、粗いレベルの並列度の集約を行う。これにより問題行列の再分散もなく、大規模並列環境での並列度の集約には効率よく機能すると予想される。本研究では、粗いレベルの影響が大きくなるストロングスケーリングを中心に本実装の効率や有用性について評価を行う。
通信削減型QR分解アルゴリズムの性能評価	深谷猛理化学研究所計算科学研究機構	大規模並列計算における通信コスト、特に通信のセットアップコストが高性能化の障壁となっている現状に対して、アルゴリズム中の通信回数を削減した、Communication-Avoiding（CA）と呼ばれるアルゴリズムが行列計算の分野で注目されている。このCAなアルゴリズムの代表例として、直交化の計算などで必要となる行列のQR分解に対する、CAQRアルゴリズムがある。これまで、モデルによる予測結果などに基づいてCAQRの有効性が主張されているが、一方、実機上での大規模並列実行時の性能評価は十分に行われていない。加えて、ブロック幅などのアルゴリズム中のパラメータと性能の関係などについても、実機上での調査がほとんどされていない。　そこで、本研究課題では、CAQRアルゴリズムのプログラムを、行列サイズやブロック幅を変えながら、実際に大規模並列実行させて、その性能を詳しく測定する。そして、測定結果に基づいて、今後のチューニングの方針や利用時のブロック幅の最適化の方法等について検討する。

▲ 採択課題 TOPへ

FX10 スーパーコンピュータシステム「大規模 HPC チャレンジ」採択課題

2013年度 採択課題決定

第1回採択課題

第2回採択課題

第3回採択課題

2013年度　採択課題決定