「光」が制するAIインフラ:BroadcomとGoogleが描く1.6T光インターコネクトの未来 (pt.1)


2025年は、光が「銅線優先」のコンセンサスを覆す年となります。
2025年前半、DeepSeekとHuawei(ファーウェイ)は、光通信採用のタイムラインを前倒しするパラダイムシフトを引き起こしました。これについては、以前のレポートでDeepSeekの推論クラスターとHuaweiのCM384クラスター設計を取り上げています。 そして2025年後半、Broadcom(AVGO)がハイパースケーラーから主要なAI ASIC(特定用途向け集積回路)の設計案件を獲得し、GoogleのTPU生産計画を拡大させたことで、銅線から光への移行はさらに加速しました。
クラスターベースの推論が、巨大なNVLinkノードの価値を低下させる
DeepSeekは同社の推論クラスター・アーキテクチャ(P/D)をオープンソース化しました。これにより、クラスターベースのマルチGPU推論の採用が加速しています。単一GPUや単一ノードでの推論と比較して、このアプローチはトークンコストを改善し、コンテキストウィンドウの制限を拡張し、パフォーマンスを向上させます。
歴史的に、学習(トレーニング)と推論はどちらも高価な高速インターコネクトに依存してきました。サーバー内部では、複数のGPUがスケールアップ用のNVLink(銅線)で結ばれ、サーバー間は低速でレイテンシ(遅延)の高いイーサネットやInfiniBandを用い、光モジュールを介してスケールアウト形式で接続されていました。このスケールアウト用ファブリック(ネットワーク基盤)がボトルネックとなっていたため、推論処理は通常、単一のチップまたは単一のNVLinkノード内で行われていました。
NVIDIA独自のスケールアップ・ドメインは、8個のHopperチップ(H100 NVL8)や72個のBlackwellチップ(GB200 NVL72)をあたかも1つのデバイスであるかのように動作させます。しかし、実務者が1つのノードを超えて処理を行うことは稀でした。スケールアウト・ネットワークには、速度低下、高レイテンシ、エラー率の上昇、故障箇所の増加といったペナルティがあるためです(ただし、コストは低く、ベンダーロックインも少なくなります)。
DeepSeekのP/D設計(主要なプロプライエタリ研究所でも同様の形態が採用されています)は、MoE(Mixture o
Pro Plan専用コンテンツ

この記事の続きを読むには「Pro Plan」にアップグレードする必要があります。