エヌビディア(NVIDIA)が「AIインフラの話を今すべきだ」と考える理由
「これから私達が言うことは、今は笑い飛ばしてくれてもいいんです。夢物語だと思われる方もいるでしょう。そんな今だからこそ、この話をさせてください」
記者にそう語ったのは、エヌビディア(NVIDIA)のエンタプライズ マーケティング部 マーケティングマネージャ 愛甲 浩史氏だ。
同氏から「AIのネットワークインフラの重要性が知られていない」という話を聞いたときは驚いた。だが確かに、GPT-3やBERT、TransformerというようなトレンドのAIアーキテクチャの紹介などに比べると、メディアでAIのインフラが語られた機会は圧倒的に少ないように感じる。
今、AIのインフラを考えるべき理由はどこにあるのか?そもそもなぜ、AIインフラが話題に挙がりにくいのだろうか?
愛甲浩史 氏
1998年に東京大学を卒業後、製造業にて情報システムや基幹ネットワークの設計、構築、運用経験ののち、IT系商社にて、ストレージネットワーク製品の技術サポート、障害解析を担当すると共に、データセンター事業者向けのネットワークインフラ設計やサポートを技術面で統括。2013年よりブロケード コミュニケーションズ システムズ社において、OEM顧客向けの技術サポートやビジネス開発、金融、製造業向けにシステム提案や設計支援を担当。ストレージネットワーク (Fibre Channel)、データセンタースイッチ、ルーター製品などの幅広い技術サポートに従事。2017年よりメラノックス テクノロジーズ社にて、HPC製品の営業やマーケティングを担当。2020 年にはエヌビディアによるメラノックス社買収に伴い、エヌビディアで、ネットワーク関連全般のマーケティング業務に従事
エヌビディア合同会社 HPC/AI ネットワーキングプロダクトマーケティング部 マーケティング ディレクター
岩谷正樹 氏
1992年に大学を卒業後、富士通にてSEとして創薬研究システムの提案・設計・運用を経験の後、官庁系研究機関のプロジェクトでデスクトップPCとScoreを使った初のPCクラスタの導入。HPC技術に深く興味を持ち、HPC専門部隊に異動。HPCベンチマークセンターやPCクラスタ スタートアップ支援プロジェクトチームを発足するとともに、多くの官民文教へのPCクラスタ導入を行った。その後、海外支援事業部門に異動し活動を海外に拡大。シンガポール、英国、ドイツ等でシステム構築に従事の後も、HPC 系技術者として長年に渡り拡販、教育活動を行った。2019年よりPacific Teckに入社して分散ストレージ、仮想コンテナの技術支援を行う。2020年6月よりNVIDIAにて現職。マーケティング ディレクターとしてInfiniBandの拡販業務に従事中
データが増える未来は予想できても、逆の未来は起こり得ない
AIインフラに注目すべき背景に、爆発的ともいえるデータ量の増加と、大量のパラメータを扱う機械学習モデルの流行があるという。
データ量は2年で10倍、言語解析も2023年には100兆パラメータに
データを集めるIoT機器やエッジAI搭載のデバイスの発達もさながら、現在世界に存在するデータの9割が2年以内に増加したものだと言われている。
IDCは、この状態のまま推移していくと、3年後の2025年には175ゼタバイト(1ゼタバイトは10億テラバイト、1兆ギガバイト) になると予測している。データの種類も音声や画像と、テキスト以外も扱われるようになり、解析手法も複雑化している。
機械学習モデルの学習パラメータの増加も著しい。GPT-3は1750億パラメータ、Google Pathwaysは5400億パラメータのモデルとしてもてはやされたが、そう遠くないうちにパラメータ数は兆単位になるという調査結果も出た。
AIデータやモデルサイズは爆発的に増えている/提供:エヌビディア
実際、大量のパラメータを扱うTransformerモデルが非常に増えてきました。Transformerは言語解析用のモデルとして知られていますが、近年は画像解析や創薬、気象解析などさまざまな分野に波及しています。今ではAI学習の7割がTransformerモデルであり、『Transformerの時代』といえるかもしれません」
データ量の増加に加え、解析の複雑化にパラメータの増加と、AI学習を取り巻く環境は大規模化を避けられない。現在主流のシングルGPUサーバーではメモリが不足し、満足に計算ができなかったり、出力までに膨大な時間がかかったりする、といった壁にぶつかるのも遠くないだろうという。
歴史は繰り返す:10年前は、多くの人が複数のサーバーを置く必要性を理解できなかった
かつて国内屈指のメーカーに所属し、企業向けのHPCのクラスタ構成に携わった経歴を持つ、エヌビディアのHPC/AIネットワーキングプロダクトマーケティング ディレクター 岩谷 正樹氏は語る。
しかしお客様自身が『処理時間を短くするならサーバーの台数を増やす必要がある』と気づかれて、まずは18台、その半年後には64台のサーバーを発注したい、というご依頼を受けたのです。
HPCのクラスタ構成は、サーバーの計算能力を高めるために複数のCPUを繋ぐ、という発想から始まりました。AIの学習や処理を支えるネットワークインフラでも、同様のことが起きると考えています」
インフラの性能(効率)を決める要素は3つ。サーバーの処理(計算)能力、ストレージの転送能力、それらを繋ぎ合わせるネットワークインフラだ。
かつてのHPCは、1つのサーバー内ではCPUの計算能力に限界が見え、複数サーバーをつなぐクラスタ構成に舵を切った。
一方、AIや機械学習に求められるのは大量のデータの学習とその処理だ。特に「学習に耐えうるデータをどれだけ持っているか」はAIの性能に直結する。
しかし大量のデータ処理のために高機能のGPUを使って計算速度を高めたとしても、ストレージや、サーバー間を連結するネットワーク速度が遅いなら、データの出力速度も落ちる。結果、AIそのものの性能にも差が出てしまうというわけだ。
二人の話を聞いているうちに、夢物語、で済ませられる問題ではないのでは?と思えてきた。
どうして今の日本ではAIインフラの話がされないのか?
そもそもなぜ、これほどまでAIインフラ、特にネットワークの話がされていないのか。2つの仮説をもとに探っていきたい。
仮説1:AIインフラが意識されないのはクラウドサービス利用が広がったから?
AWSやGCP、Microsoft AzureなどのパブリッククラウドサービスのAI関連サービスやGPUリソースを部分的に借りるだけでなく、個人でもブラウザ上のサービスで機械学習やディープラーニングを体験するのは当たり前ともいえる。
こうしたサービスが普及してAIや機械学習を試すハードルが下がった反面、各種サービスの利用者はインフラに触れる機会がないのでは、と愛甲氏は話す。
AIに限らず、新しいことを学ぶなら『てっとり早くできるところから始めてみよう』と思うのは当然です。手軽に使える反面、自分たちでインフラを構築する機会がなくなった、ともいえます」
サービス部分は自分で作りインフラは外部に依頼、という発想は、企業でも同様だという。システムやネットワークだけでなく、AIも「インフラ屋まかせにすればいい」と考える企業は決して少なくないそうだ。
仮説2:現在はシングルGPUで事足りていて、AIインフラ投資への費用対効果が読めないのでは?
さきほど岩谷氏に語っていただいたエピソードでは、取引先の企業担当者が自ら「処理能力を高めるためにサーバーの数を増やすことが必要」と気づいたという。
それならば、現在「AIを使っている」という日本企業の多くは、シングルGPU(1台のGPUサーバ)での学習・解析で事足りているから、インフラを改善しよう、ネットワークに投資をしようと考えないのではないか?
二人に尋ねると、興味深い答えが返ってきた。
データ収集やAI活用を本格的に進めたら、ビジネスのスケールが変わります。
今の日本は『画像解析で業務が効率化できた』ぐらいのレベルで終わってしまっている。プライバシーに対する考え方の違いもありますが、社会システムを変えるレベルの話※も、残念ながら出にくい」
※極端な例にはなるが、『街の至る所に防犯カメラを設置して、強盗の逃げた方向をリアルタイム解析して追跡する』など、社会を大きく変えるようなAI活用
他にも、高等教育機関でのコンピュータサイエンス教育の扱い(実用よりアルゴリズムなどの知識を重視、大学がコンペ参加に消極的など)や、企業等によるデータ活用の意識の違い(基本的な非公開主義、用途の不明瞭さやプライバシー配慮の不足、あるいは理解の不足などによるデータの収集・活用そのものへの忌避)など「日本ならではの事情」もあるだろうとのことだった。
AIがあたりまえだからこそ、「あたりまえに動かせる」ネットワークを考える必要性がある
AIの実用化にはこうした意識の変化だけでなく、「即時判断」が欠かせない。
例えば自動運転AIで今にも歩行者にぶつかりそうだ、というとき「計算処理のため5秒後に車の動きを判断する」のは許されないし、多くの買い物客がひしめく無人スーパーで「ネットワークが遅れているので商品情報を処理するのに時間がかかっています」というメッセージを出すのは、あまりにお粗末だろう。
AIを本格的に活用し、大量のデータ処理に耐えうる環境をつくるために企業はどんな準備をすればいいのか?
既存の環境でGPUの数を増やしただけでは、外部ネットワーク速度がボトルネックになる
岩谷氏が考える「AIクラスタ実用化の壁」は、GPUを繋ぐ外部ネットワークの速度にあるという。
現在のGPUサーバー、特にDGX サーバーではサーバー内のGPU 間のネットワーク(内部ネットワーク)は非常に高速な通信ができます。
しかし、サーバー間を接続する外部ネットワークが足を引っ張っています。
現状では、CPUとGPUを繋ぐPCIeを経由するので最大でも内部ネットワークの7分の1の速度(双方向で126.4GB/s)しか出ない。いくら高機能のGPUやCPU、ないし内部ネットワークがあっても、可能な限りここを最大化し効率よくしなければ全体の計算速度は大きく落ちるのです」
外部ネットワークがGPUの速度を「殺してしまっている」状態/ 提供:エヌビディア
最新モデルのInfiniBandはイーサネットの約4倍の性能 BERTやGPT-3の処理速度も向上
エヌビディアでは、大量データを使ったAI学習・解析と、それに欠かせないGPUの大規模クラスタ構成を見据えて「GPUと同じ数だけInfinibandを引こう」とアピールしており、昨年11月にNVIDIA Quantum-2 InfiniBand Platform(NDR)を新たに発表した。
出典:NVIDIA Quantum-2 InfiniBand アーキテクチャ
Quantum-2 InfiniBand PlatformはPCIe最新バージョンである Gen5 をサポートしており、ネットワークの通信速度は400Gb/s(双方向で 100GB/s)だ。この速度は、サーバーを跨いだGPU間をつなぐ場合のほぼ「上限」といえる数値だという。
KernelやOSのオーバヘッドを受けないRDMA通信に対応し、ホスト間の通信量を削減するSHARPやAdaptive routingなどのアクセラレータ機能、障害・輻輳を回避する機能を兼ね備えている。今ある帯域を「限界まで使い倒せる」のだ。
All reduce による InfiniBand の性能効果(全ての通信を RDMA 通信に統一して測定)/提供:エヌビディア
実際、同社内でBERTやGPT-3を使って性能評価をしたところ、既存の環境に比べ1割から2割ほど処理性能が向上した、とのことだ。
エヌビディアが実現したいのは高速GPUを使った「大規模機械学習を支える環境」
実はこのInfiniBand、2019年にエヌビディアが買収したメラノックス テクノロジーズが開発した製品だ。同社が持つ、HPCクラスタ構成のノウハウも今後活かしていくとのこと。
エヌビディアはInfiniBandの他にも、イーサネットスイッチやDPU(データプロセッシングユニット)、NVSwitch、NVLink Switch Systemなども提供し、AIインフラの高速化を支援している。同社が見据えるのは「自社の高速GPUの性能をより引き出せるネットワークや、大規模機械学習を支える環境の提供」だ。
二人はAIのビジネス実用で迷ったらエヌビディアに、と強く主張する。
高機能GPUを大量に接続しても、ネットワークの重要性を知らなければ、性能をドブに捨てるようなものです。
大規模機械学習を考えるときのひとつの選択肢として、InfiniBandなどを頭の片隅に置いてほしいと思っています」
ネットワークインフラは各社が抱えるさまざまな事情もあり、ひとつのソリューションを「最適解」と言い切るのは難しい。だが今後、ひとつの企業でも大量のデータを基にAIの活用範囲を広げていく(もしくは、AI活用を見据えたデータ収集の機会が増える)ようになるのは避けられないだろう。
すでにGPUクラスタ構成に取り組み始めた日本企業も出てきている。
第三次AIブームの夢から覚め、「今より一歩踏み込んだAIの実用」に必要なものはなにか。Ledge.aiでも、改めて考え続けていきたい。
「AI:人工知能特化型メディア「Ledge.ai」」掲載のオリジナル版はこちらエヌビディアがAIインフラの話を「今」すべきだと考える理由2022/06/21
ソーシャルもやってます!