東大医科研ヒトゲノム解析センターがスーパーコンピューター SHIROKANE に NVIDIA Clara Parabricks を全面導入、全ゲノム解析時代に向け基盤を強化

2021年3月1日より稼働開始、4月1日よりユーザーへ提供開始

2021 年 2 月 25 日— NVIDIAは、国立大学法人東京大学医科学研究所(以下、東大医科研)ヒトゲノム解析センターが最新型のヒトゲノム解析用スーパーコンピューターシステム、SHIROKANEの解析基盤の強化に向け、NVIDIAのプラットフォームを新たに導入したことを発表しました。従来の約40倍※1の高速化を可能とするゲノムデータ解析ソフトウェア、NVIDIA Clara™ Parabricks(以下Parabricks)が全面的に実装されると同時に、Parabricksを実行するGPU環境の強化としてNVIDIA® DGX™ A100サーバー(以下DGX A100)が導入され、2021年3月1日より稼働開始、4月1日よりSHIROKANEユーザーに向けて提供が開始されます。

ライフサイエンス分野では国内最大の計算基盤であるSHIROKANEは、がん研究に貢献するヒトゲノム情報の効率的な解析と個別化医療の実現を目的に運用されており、ゲノム研究に取り組む学術機関や民間機関にも利用が一部開放されています。

ゲノム研究における課題と背景
個別化医療とは一人ひとりの体質や病態にあった適切な医療を提供することであり、そのためには全ゲノム解析※2により取得したパーソナルゲノム情報に基づいた予防・診断・治療法の検討が必要です。厚生労働省は、国家戦略として2019年12月にがんや難病領域の「全ゲノム解析等実行計画」を策定し、がんと難病の患者計約92,000人分の検体を対象に最大3年間かけて解析することを発表しました。

ゲノム研究において、全ゲノムシークエンスは情報の網羅性が高いことから研究面での有用性が広く認識され一般化してきたと言えます。近年では従来の5倍以上のシークエンス深度※3で、がん全ゲノムを解析する研究も発表されています。また、がん研究以外の感染症などさまざまな研究領域においても全ゲノムシークエンスデータ解析のニーズが高まっています。このような今までの数倍のシークエンス深度、かつ膨大なサンプル数が必要となる全ゲノムシークエンスデータを遅延なく迅速に網羅的に解析することは、従来の大型計算機を使っても膨大な時間を要するものでした。世界で全ゲノム情報を医療に活用する取り組みが加速するほか、日本においても、全ゲノム解析の実現性が議論されており、全ゲノム情報に基づくゲノム医療を多くの患者に提供するためには、そのデータ解析基盤の構築が喫緊の課題となっています。

ゲノム解析を高速化するNVIDIAのプラットフォーム
Parabricksは、GPUの特長である並列演算性能を活用して全ゲノム解析の一連の計算処理を超高速化するソフトウェアです。全ゲノム情報解析は、従来のスーパーコンピューターを用いると膨大な時間がかかる作業ですが、一般的なCPU環境で1サンプル当たり20時間以上を要するような計算処理をDGX A100と組み合わせた場合、30分以内で完結する※1 ことが可能です。さらに、最新バージョンでは正常細胞の全ゲノム解析だけでなく、がんを中心とする体細胞変異の全ゲノム解析についても一般的に用いられている数種類のプログラムを高速化実装しており、大規模ながん全ゲノム解析時代を先取りしています。

東大医科研ヒトゲノム解析センターは株式会社日立製作所の協力のもと、2020年2月にSHIROKANEに搭載されたNVIDIA® V100 GPU 80基のうち、16基にParabricksを国内でもいち早く導入し、同年6月より、研究機関やライフサイエンス関連企業などSHIROKANEユーザーに開放しています。従来の想定を大きく上回る解析速度が評価されユーザー数が増加したことから、解析のジョブ待ちが多数発生するなど、さらなる基盤の強化が求められていました。そのニーズに応えるため、新たにDGX A100を導入し、全88基となるGPUサーバーにParabricksが搭載されることになりました。

DGX A100は世界初の 5 ペタフロップス※4の演算能力を持つAI システムであり、Parabrickの拡充に伴うGPU環境の強化と、ディープラーニングを中心とするAIを活用した研究のニーズに応えます。データ アナリティクス、学習、推論を含む多様かつ大規模なワークロードの高速化が可能で、米国エネルギー省 (DOE) アルゴンヌ国立研究所で新型コロナウィルスの研究に活用されているほか、世界中の企業や機関に導入されています。また、NVIDIAの知見に基づいて構成されたアプライアンスであるため、Parabricksの最高速度での動作が検証されていること、CPU、メモリ、ストレージ等の仕様が最適に構成されており、必要な際に迅速に1台単位で容易に導入可能なこと、さらに全ゲノム解析に関わる多数の研究機関で同一の環境を揃えられることもメリットとなります。

新型コロナウィルス研究も強力に後押しするSHIROKANE
東大医科研ヒトゲノム解析センターは、新型コロナウイルス感染症の研究も加速するため、必要とする研究機関に対して、2020年4月からSHIROKANEの無償提供を行っているほか、ヒトゲノム解析センターの研究者自身も、7大学・研究機関の異分野の専門家からなる共同研究グループ「コロナ制圧タスクフォース」 をはじめさまざまな新型コロナウイルス感染症の研究に参画しています。今回のSHIROKANEの基盤強化は、新型コロナウイルス感染症の研究に係る研究者も強力に支援するものです。

国立大学法人東京大学医科学研究所 ヒトゲノム解析センター 井元清哉 教授・センター長は以下のように述べています。
「東大医科研ヒトゲノム解析センターは、がんゲノム医療における全ゲノムデータ解析の精緻化や解析時間の短縮化に取り組んできました。今回、ParabricksをSHIROKANE上の全GPUサーバに実装するための評価を行い、その高速性や機能が今後の大規模全ゲノム解析時代に不可欠であることから導入に至りました。従来の CPU サーバー数百ノード分に相当する全ゲノムデータ解析能力をGPUサーバーに実装し、SHIROKANEユーザー向けに、ゲノム研究を大きく加速する最新鋭の高速全ゲノムデータ解析環境を実現します。」

NVIDIA 日本代表 兼 米国本社副社長の大崎真孝は、次のように述べています。
「NVIDIAは数年前から、来たる大規模全ゲノム解析時代を見越して投資を継続してきました。その最大の成果であるParabricksが最新のDGX A100システムと共に、国内最高峰のがんゲノム研究拠点で導入され、実績を生み出しています。NVIDIAのプラットフォームが日本の全ゲノム研究を支える基盤となり、がんや難病の解明が飛躍的に進むことが期待されます。」

※1 データは一般公開されている NA12878 (https://precision.fda.gov/challenges/truth) から深度x30に生成。CPUによる所要時間はGATK4.1を用い、32 vCPU (3.1Ghz Intel Xeon® Platinum 8175M) 128GB RAM環境で計測。GPUによる所要時間はParabricks 3.2を用い、DGX A100環境で計測。

※2 全ゲノム解析とは:ヒトの全ゲノムは約30億塩基対で構成されているが、一般的な次世代シーケンサーはその機構上、巨大なゲノムを100~150塩基対程度の断片に切断しなければ情報を読み出すことができない。そのため、次世代シーケンサーからは結果として、数億個のランダムな断片の情報が出力されることになる。これを意味のある情報に変換するためには、膨大な断片を破綻のない形で本来の姿である30億塩基対の繋がりに復元する必要がある。さらにその後リファレンス配列と呼ばれる標準配列に対して「30億塩基対のどこに変異があるのか」を検出することで、はじめて有用な情報となる。

※3 シークエンス深度とは:対象のゲノム領域に対して何回シークエンスを行ったかを意味する。次世代シークエンサーでは配列読み取りエラーが発生するため、ゲノム上の同じ位置を繰り返しシークエンスを行うことで確度を高める。

※4 NVIDIA DGX A100システムの性能:AI処理を中心としたFP16 Tensor演算では最大5ペタフロップス(毎秒5,000兆回の浮動小数点演算)、Parabricksの大部分やその他様々なアプリケーションで利用されるFP32演算では最大156 テラフロップス(毎秒156兆回の浮動小数点演算)の性能を発揮。

NVIDIA について
1999年におけるNVIDIA (NASDAQ表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックス、ハイパフォーマンス コンピューティング、そして人工知能(AI)を再定義しました。NVIDIAのアクセラレーテッド コンピューティングとAIにおける先駆的な取り組みは、輸送、ヘルスケア、製造業などの数兆ドル規模の産業を再構築し、その他のさまざまな産業の拡大も加速させています。詳細は、こちらのリンクから:www.nvidia.com/ja-jp/