やや強気エヌビディアエヌビディア / NVDA:注目の半導体銘柄が目指すシステムレベルのスケーリングへの考察と同社の強み・将来性 - 後編
ダグラス・ オローリン- パネルレベル・パッケージングにより、より多くのシリコン・ダイ面積のスケールアウトが可能になり、液冷ラックにおけるシリコン面積の最大化を目標に、現在のCoWoSパッケージの10倍以上の大きさのパッケージが実現する。
- エヌビディア(NVDA)は、ネットワークが必要になる前にシリコン統合の規模を拡大し、NVLinkドメイン内でパッシブ銅配線相互接続を活用し、システムレベルのイノベーションを優先することを目指している。
- 液体冷却はラックレベルのムーアの法則によるスケーリングを促進し、エヌビディアは銅製バックプレーンなどの革新的なソリューションでリードしているが、ハイパースケーラはAIのスケーリングやネットワークへの先見的なアプローチで遅れをとっている。
※「エヌビディア / NVDA:注目の半導体銘柄が目指すシステムレベルのスケーリングへの考察と同社の強み・将来性 - 前編」の続き
エヌビディアとデータセンターにおける液冷と銅
さらに、パネルレベルのパッケージングは、より多くのシリコンダイ面積をスケールアウトできる可能性が高いことを意味する。
より大きなパッケージと基板があれば、先進的なパッケージングを使用して、現在のCoWoSパッケージの10倍以上の大きさにスケールアウトできるようになる。
目標は、1つの液冷ラックに熱的に可能な限り多くのシリコン面積を入れることだろう。
日本語訳:
4" x 4 "から8" x 8 "までの基板を開発中。
現在の4倍CoWosシリコンインターポーザーの4倍から16倍の大きさ。
大型基板により高帯域幅の相互接続が可能
30マイクロメートルピッチで1000バンプ/ミリメートル^2を実現
極端な帯域幅の拡張が可能
基板あたり最大毎秒100ペタビット
システム設計の新時代
つまり、1つのパッケージに4~10倍のシリコン面積を入れ、少なくとも2倍の電力を冷却する手段があるとする。
そのため、多少の節電を想定する。
目標は、できるだけ多くのシリコンをラックに入れ、できるだけ冷却し、パッシブ銅線で相互接続することである。
パッシブ銅線、つまりNVLinkのドメイン内ですべてが実現できて初めて、光学やDSPの話ができるのである。
目標は、ネットワーキングの費用が必要になる前にスケールアップすることです。
そしてエヌビディア(NVDA)は、シリコンのスケーリングを追求すると同時に、このシステムのスケーリングを推し進めるだろう。
これは説得力のあるスケールアップとロードマップである。
このシステム・ソリューションは、オプティクスよりも桁違いに安価で、おそらく購入可能な中で最高のコストパフォーマンスとなるだろう。
また、エヌビディアは、GPUの周囲にもう1層のネットワーク堀を築こうとしている。
もし彼らがLPO(Linear Drive Pluggable Optics)を最初に成功させれば、これはネットワークの優位性をさらに高めることになる。
そして、これがCXL(Compute Express Link)がダメになった理由である。
ネットワーク上にコンピュートやメモリーを配置する意味はゼロに等しく、コストがかかりすぎるし、単純なスケーリングに複雑さを加えることになる。
そのため、私は銅線はラックスケールレベルで頂点に君臨し、ムーアの法則のスケーリングをさらに推し進めることができると考えている。
AI ネットワーキングは、オプティクスを使わなければならなくなる前に、銅線によるネットワーキングを可能な限りスケールさせることを目指している。
そして、アンディ氏はこう言っている。
日本語訳:
今日の最高のパッケージ戦略:
できる限り銅線を使う
どうしても必要な時にだけオプティクスを使う
液冷がスケーリングの比較的容易なフロンティアを開いた今、そのスケーリングを押し進める競争が起こるだろう。
エヌビディアはすでに、このレベルの統合を差別化の新たな広大なベクトルとして利用している。
彼らは、より良いソリューションと、最も安い電力制約で最も多くのフロップスを購入する方法を探している。
ムーアの法則について、チップの狭い枠を超え、システムで考える時が来た。
新しいムーアの法則は、ラックに最も多くのコンピュートを押し込むことである。
また、エヌビディアのネットワーキングのモート(競争優位性)をインフィニバンド対イーサネットと見るのは、完全に的外れです。
パッシブ銅線上のNVLinkドメインが成功の新たなベンチマークであり、B200だけでなくGB200のNV72ラックを購入することは非常に理にかなっていると考えている。
より大きな基板、より高密度のメモリ、そして情報を可能な限り近づけるためのパッシブ銅線を使ったシステム設計の新時代である。
これはすでにチップ・レベルで追求されていたことだが、いまやラック・レベルで起こっているのである。
この世界では、ファット・ツリー・アーキテクチャーのリーフはさらに密になる。
このアーキテクチャの太った葉は、ネットワークへのスケールアウトが必要になる前に、できるだけ多くのコンピューティングとメモリを消費しようとする。
エヌビディアは巧みにボトムアップでネットワークを消費しようとしている。
一方、ブロードコム(AVGO)はラックのトップから下へのスケールアウトを追求しているが、銅線でのスケールアウトのコストと能力を考えると、リーフからのスケールアップのエネルギーとパフォーマンスの方がはるかに理にかなっていると思う。
エヌビディアが提供する緊密に統合されたメインフレーム・ソリューションは、パフォーマンスにおいて最高のものになるだろう。
そして、この話題のどこにもAMD(AMD)の姿はない。
AMDは、オープンコンソーシアムを利用したネットワークのコンポーネントとしてスケーリングしようとしている。
ラックをスケールアウトする戦略は巧妙で、チップをスケールアウトするこれまでの方法とは完全に直交している。
ハイパースケーラは、その利点を認識していたと思われるが、おそらくエヌビディアが果たしたように、このロードマップが完全に定義されるとは予見していなかっただろう。
私は、Systems of Chipsのスケーリングについて考え始める時だと思います。
そして、エヌビディアはいつものように、その未来の第1版をすでに考え出し、展開している。
より競争力のある考え方やラックスケーリングによる具体的な側面については、後ほど考えを紹介したい。
私は、ハイパースケーラのインフラ優位性は、市場で最も過大評価されている競争優位性の1つだと考えている。
ハイパースケーラは、このデータセンター・スケールアウト体制で最もリスクにさらされている。
これは、最近のカンファレンスから得たものをまとめたものである。
バーティブ・ホールディングスに関して
このような話ができるのも、液冷が新しいパワーのエンベロープを実現し、スケーリングが可能になったからに他ならない。
バーティブ・ホールディングス(VRT)はこの分野のリーダーであり、彼らがこの恩恵を受け続けることは明らかに理にかなっている。
私は、この分野における同社の競争上のポジショニングについて、非常に強気である。
一度液冷を使ったら、もう元には戻れない。
液冷は、ムーアの法則の新しいラックレベルのスケーリングを可能にし、性能と市場シェアを押し上げることは価値がある。
同社はこの観点から見ると非常にメリットがあると言える。
エヌビディアはハイパースケーラーよりも洗練されている
これは私が複数の人から聞いた興味深いテーマである。
私は何度も、エヌビディアはハイパースケーラーよりもはるかに洗練されていると言われた。
ハイパースケーラは、市場が考えているよりもずっと洗練されておらず、AT&T(T)、ベライゾン(VZ)、TモバイルUS(TMUS)のようなレガシー通信プレーヤーに近い存在だが、より多くの資金を持っている。
エヌビディアは、ハイパースケーラーではなく、ネットワーク・イノベーションを追求している。
そして、エヌビディアは非常に説得力のある第一原理分析を用いてこの問題に取り組んでいる。
目標は、最も経済的で電力効率の高い方法で帯域幅をスケールアウトし、それをソリューションとして提供することである。
ラックスケールのイノベーションをロードマップに掲げているところは他にないと思われ、数年後には銅製バックプレーンの模倣品が出てくるだろう。
しかし、それは次のポイントにつながる:ハイパースケーラーがコンソーシアムや昔ながらの堅実な方法でスケールアップを試みても、そのソリューションは遅々として進まず、コンソーシアムの中で死んでしまうだろう。
私の考えでは、ジェンセン氏は新しいスティーブ・ジョブズであり、顧客が理解する前に、大胆かつ明らかに技術的に優れたソリューションを追求する人物である。
エヌビディアはハードウェア企業であり、他のハイパースケーラは主に広告、オフィスソフトウェア、サービスとしてのコンピューティングの販売に注力している。
ハイパースケーラーにとって、ハードウェアの製造は明らかにコアコンピテンシーから外れている。
ハードウェアを販売することを仕事とする企業が、顧客よりも優れた業績を上げているのは驚くべきことではない。
私は、ハイパースケーラの相対的な競争上の位置づけは、市場で過大評価されていると考えている。
エヌビディアの技術はどの企業にとってもコアコンピテンシーではないにもかかわらず、多額の予算を持つハイパースケーラーがエヌビディアを中抜きすることができるという考え方が目立つ。
これらの企業は1,000人以上の従業員を雇用しているが、その多くは新参者であり、市場での経験も浅い。
さらに、業界における「2年ごとの離職率」という言葉を 4 回も聞かされた。
そして、ハイパースケーラーで働く個々の従業員が、エヌビディアのように突き進むことができなければ、長期的な決断を下すことは難しいと思う。
エヌビディアはスケーリングに対して直交的かつ革新的なアプローチを追求しており、OFCでは常にイノベーションの最先端を走ってきた。
彼らはインテリジェントな質問をし、ムーンショット(LPO)を追求し、可能性の最先端を押し進めている。
一方、ハイパースケーラーたちは現状維持の思考から抜け出せない。
これはおそらく、最もコンセンサスから外れた考え方のひとつだろうが、すべてがこの真実を指し示している。
そして、エヌビディアがNV72Lフォーマットでより多くのGB200を販売するにつれて、アマゾン(AMZN)とコアウィーブの差はほとんどなくなっている。
それは資本へのアクセスであり、規模の優位性ではあるが、技術の優位性ではない。
勝つのはエヌビディアのゲームであり、エコシステムの大半は彼らの残像を追いかけているのだと思う。
100万個のアクセラレータをオプティクスでスケールアップすることは、ブロードコムの利益につながるが、オプティクスのコストとエネルギーに実質的な税金を支払うことになる。
一方、AMDの高速チップの追求は、AMDがこれまで追求してこなかったシステムレベルの統合を見逃している。
ジェンセンは、コンピューティングの面でジョブズのようなビジョンを追求している。
彼は、市場が必要と認識していなかったソリューションを提供し、顧客が理解する前にそれを実行している。
私はそのビジョンに驚いてOFCを後にした。
ラックレベルでのムーアの法則は、多くの新しい競争のベクトルを生み出している。
ラックレベルの統合(銅バックプレーン)、シングルレーンスピード(224gbs)、Quantum X Radix(よりフラットなネットワークのための144ポート)、液冷、半導体設計、Infibandはすべて競争の対象となっている。
エヌビディアはそのほとんどを制しており、R100を投入することでリードをさらに広げ、半導体の覇権を握ることになるだろう。
アシュカン・セイディ氏(エヌビディアのネットワーキング担当バイス・プレジデント)には感銘を受けた。
彼のビジョンと明快さは、AIのスケーリングに何が有効で何が有効でないかを、簡潔に説明するものだった。
エヌビディアは、サイエンス・プロジェクトを追求するのではなく、イノベーションを生み出す真のソリューションに取り組んでいる。
OFCでは、ほとんどすべての代表者たち、特にコンポーネント・メーカーがアシュカンに賛同を求めた。
コンポーネントメーカー、ネットワークベンダー、そしてハイパースケーラーでさえ、エヌビディアのビジョンに近いものを追求していない。
ここではグーグル(GOOG/GOOGL)が2番手だが、それでも私はエヌビディアが限界に挑戦していると思う。
インフィニバンドのレイテンシーとイーサネットの比較
スケジューリングされたファブリックとスケジューリングされていないファブリックについて、少し議論する必要がある。
インフィニバンドは、ロスレス・ファブリックであるため、そのコストにもかかわらず、市場で生き続け、勝ち続けている。
つまり、イーサネットより遅いかもしれないが、テール・レイテンシーはずっと低いということである。
テール・レイテンシーは、AIトレーニングにおける致命的な問題だと言える。
モデルの収束はネットワーク全体が大規模なモデルをトレーニングすることに依存しており、遠くのノードで待ち時間が発生するとシステムの出力が台無しになってしまう。
ハイパースケーラがRoCE(RDMA over Converged Ethernet)に取り組んでいるように、イーサネットは長期的には勝ち続けるだろう。
ここでの目標は、ネットワークにパケットを吐き出すのと比較して、インテリジェントなイーサネットのスケジューリングを行うことである。
問題は、ブロードコムが言っていることとは裏腹に、RoCEはまだ準備が整っていないということである。
私は、ハイパースケーラーにある種のスイッチASICを搭載してイーサネット・ソリューションを修正することが、長期的にはおそらく大きなチャンスになると考えている。
しかし、前述したように、イーサネットがエヌビディアのネットワーキングを侵食しているというのは、大局を見誤っている。
NVLinkのネットワーキング・ノードと銅線領域からのスケーリングは、ネットワークのより大きな部分を消費するだろう。
さらに、相互運用が難しいため、LPOはほぼ間違いなく1つのベンダー独自のものになるだろう。
もしLPOを撤回すれば、顧客はエヌビディアが管理する独自のソリューションに不満を漏らすことになり、インフィニバンド対イーサネットの二の舞になるだろう。
そして、エヌビディアがイーサネット・ソリューションを持っていないわけではない。
Quantum-X Radixはキラー製品のように見える。
OCSへの支持
最後になったが、エヌビディアがOCSにお墨付きを与えたことは興味深いと感じた。
目標は、NVLドメインでNVSwitchを可能な限り拡張するためのネットワークレイヤーを崩壊させることである。
エヌビディアはネットワーキングの野獣のような存在であり、AIの未来に対する彼らの意見的で先見的なビジョンを見れば、それは明らかだと思う。
MACOMテクノロジー・ソリューションズ(MTSI)とセムテック(SMTC)にとってのLPOの機会については、私はもっと多くの考えを持っており、部分的には楽観視しているが、一旦はここでこのレポートを打ち切ろうと思う。
また、LROについては、マーベル・テクノロジー(MRVL)でのAIデーの後に考えたいと思う。