03/04/2025

【Part 3】DeepSeek(ディープシーク)とChatGPTの違いとは?DeepSeekの強み&競争優位性を徹底解説!

A person holding a cell phone in their handコンヴェクィティ  コンヴェクィティ
  • 本稿Part 3では、「DeepSeek(ディープシーク)とChatGPTの違いとは?」という疑問に答えるべく、DeepSeekの強みと競争優位性を詳しく解説していきます。
  • DeepSeekは、独自の数値演算オペレーターやFP8トレーニング技術を活用し、エヌビディアのCUDAに依存せず、高効率なAIモデルのトレーニングを実現しています。
  • DeepSeekは、H800 GPUの効率的な活用により、メタ・プラットフォームズのLlama 3を上回る成果を低コストで達成し、並列処理や通信最適化の工夫が大きく寄与しています。
  • DeepSeekは、西側の競合と比べて運用コストやクラスタのコストが大幅に低い一方で、総設備投資額はそれほど大きな差がない可能性があります。
  • 米国の半導体規制がある中でも、DeepSeekは革新的なトレーニング手法を活用し、AI技術の進化を続けており、外部資金の調達やHuaweiとの連携強化を進めながら、さらなる規模拡大を図っています。

※「【Part 2】DeepSeek(ディープシーク)とエヌビディアの関係性:DeepSeekはエヌビディアのCUDAの支配力を弱める脅威?」の続き

前章では、中国発のAIであるDeepSeek(ディープシーク)がエヌビディア(NVDA)のCUDAの支配力を弱めているとの声が聞かれる中、DeepSeekとエヌビディアの関係性、並びに、DeepSeekの将来性を詳しく解説しております。

本稿の内容への理解をより深めるために、是非、インベストリンゴのプラットフォーム上にて、前章も併せてご覧ください。

DeepSeek(ディープシーク)の強みとは?

DeepSeek(ディープシーク)の最も誤解されがちな側面の一つが、そのインフラに関する専門知識です。High Flyer(中国のクオンツトレーディングを専門とする投資会社)のこれまでの取り組みにより、DeepSeekは大規模なGPUクラスタの運用と最適化に関して最先端の理解を持つに至りました。実際、High Flyerは2022年以前から、大規模なGPUクラスタを導入する際に他の誰も発見できなかったバグを特定していました。同社は新しいネットワーク最適化ソリューションをエヌビディア(NVDA)と共有し、後にエヌビディアはこれを他の顧客向けのテンプレートとして活用しました。

ChatGPTによるAIブームが始まる前から、High Flyerはすでに大規模な分散型ディープラーニング(DL)トレーニングに関する豊富な経験を有していました。他のクオンツ系企業と同様に、High Flyerは常にハードウェアインフラの効率最大化に注力しており、その究極的な目標は、ハードウェアの潜在能力を最大限に引き出すことで、全体の効率を2倍から3倍に向上させることでした。

この効率向上の鍵となったのが、エヌビディアがCUDA上で顧客向けに事前構築していなかった独自の数値演算オペレーターの開発です。High Flyerは、独自の低レベルオペレーターを作成することで、一部のケースでは25%から500%の性能向上を達成し、さらなるパフォーマンスの向上を実現しました。

そして、DeepSeekは、自社のトレーニングについて次のように端的にまとめています。

Pre-Training: Towards Ultimate Training Efficiency / 事前学習:究極のトレーニング効率を目指して」

✅ 私たちはFP8混合精度トレーニングフレームワークを設計し、極めて大規模なモデルにおいて、FP8トレーニングの実用性と有効性を初めて検証しました。

✅ アルゴリズム、フレームワーク、ハードウェアの共同設計を通じて、ノード間のMoEトレーニングにおける通信ボトルネックを克服し、計算と通信のほぼ完全なオーバーラップを実現しました。これにより、トレーニング効率が大幅に向上し、コスト削減が可能となり、追加の負担なくモデル規模のさらなる拡大が実現できます。

✅ わずか2.664M H800 GPU時間という経済的なコストで、14.8Tトークンを用いたDeepSeek-V3の事前学習を完了し、現在最も強力なオープンソースのベースモデルを生み出しました。事前学習後のトレーニングステージには、わずか0.1M GPU時間しか必要ありません。

(出所:DeepSeek)

これまでに得られた情報をもとにすると、DeepSeekはわずか2048基のH800 GPUで、メタ・プラットフォームズ(META)のLlama 3を上回るモデルをトレーニングすることに成功したことが明らかです。これは、Llama 3が16,000基のH100 GPUでトレーニングされたことを考えると、極めて効率的な成果と言えます。H800は、米国のAIチップ輸出規制に対応するため、中国市場向けに特別に設計されたH100のバージョンです。

2022年9月、米国政府はChatGPTのリリース前にOpenAIからの圧力を受けた可能性もあり、中国へのH100およびA100 GPUの販売を禁止しました。この動きは数か月前から計画されており、エヌビディアは米国政府に助言を行い、代替策を用意する必要がありました。そして制裁の直後、エヌビディアは事前に準備していたH800とA800を投入しました。

H800は基本的にH100と同じですが、決定的な違いがあります。それは、NVLinkの帯域幅が900GB/sから400GB/sへと半減している点です。この仕様変更は、中国企業が推論(インフェレンス)は可能でも、AIモデルのトレーニングを行えないようにする目的で設計されました。最先端のAIモデルをトレーニングするためには、数千基のGPUを相互に高速通信させながら並列動作させる必要があります。

米国政府はこの帯域幅制限によって、自国のAI企業が中国企業を引き離すことを狙っていました。しかし、2023年10月にはさらなる規制が導入され、H800およびA800の販売が禁止されました。これに伴い、エヌビディアはH20を発表しました。H20は96GBのHBM3メモリと900GB/sのNVLink帯域幅をH100と同様に維持しているものの、計算コアが41%削減されています。H800と比較すると、H20はNVLinkの帯域幅が2倍以上ある一方で、計算能力が大幅に制限されています。

この事実は、単にH100のNVLink帯域幅を削減するだけでは、中国のAI開発を遅らせるには不十分であったことを示しています。特にDeepSeekは、モデルを小さな単位に分割し、256のエキスパートを高度に分散して使用することで、効率的なトレーニングを実現する手法を編み出しました。

また、MLA(Multi-Level Attention:多層アテンション)やMTP(Mixture of Token Parallelism:トークン並列化の混合手法)のような革新的なアルゴリズム変更に加えて、DeepSeekのシステムおよびインフラの最適化も注目に値します。同社は、これまでに例のない並列処理戦略を採用し、2048基のH800 GPUを極めて効率的に活用しながら、高速ネットワークへの依存を最小限に抑えることに成功しました。

DeepSeek(ディープシーク)のより優れた並列処理戦略

DeepSeek V3は、高度なトレーニング並列化戦略を採用することで、計算リソースを効率的に活用しています。そのアーキテクチャの概要は以下のとおりです。

1️⃣ エキスパートの割り当て

  • 各GPUは4つのエキスパートを担当します。
  • 1ノードあたり8基のGPUが搭載されており、各ノードで32のエキスパートを処理できます。
  • 8ノード(合計64基のGPU)で、256のエキスパートを同時にトレーニングできます。

2️⃣ データパイプラインの構成

  • データは128のパイプラインに分割され、並列処理が可能になります。
  • 大きな正方形のデータ表現は、データポイント(DP)の分布を示しており、一辺が64のデータポイントを持ちます。
    • デュアルパイプラインを採用しているため、もう一方の辺では128 DPとなります。
    • 具体的には、データは最初に図の前面で処理され、その後、背面へ送信されてさらなる処理が行われます。このとき、前後の処理が同期することで、アイドル時間を最小限に抑えながら作業が進む仕組みです。

3️⃣ パイプライン(ステージ)トレーニングのアーキテクチャ

  • 16のパイプラインを同時にトレーニングするデュアルパイプラインアーキテクチャを採用しています。
  • 一方のパイプラインが処理を行っている間に、もう一方のパイプラインが次のデータを準備することで、アイドル時間を削減し、リソースの活用効率を最適化します。

4️⃣ 並列処理の規模

  • 128のデータパイプラインと16のステージを組み合わせ、2,048基のGPUが並列動作します。
  • この大規模な並列処理により、トレーニングの高速化が可能となり、複雑な計算を効率的に処理できます。

5️⃣ 通信効率の最適化

  • このアーキテクチャでは、各トレーニングトークンが4つ以内のエキスパートと相互作用し、すべてが単一のGPU内で処理されます。
  • これにより、GPU間の通信を最小限に抑え、レイテンシーを低減しながら、トレーニング全体の効率を向上させています。

以下の図は、HuaweiのAIチップアーキテクトが作成したDeepSeek V3のトレーニング並列化戦略のシンプルなビジュアル化です。

(出所:GitHub)

計算効率の向上とネットワーク負荷の削減

DeepSeekは、計算効率をさらに高め、ネットワーク負荷を低減するために、FP8 GEMM(General Matrix Multiplication:一般行列積)オペレーターなどを手動でコンパイルしています。GEMMは、ディープラーニングのほぼすべての計算の基盤であり、行列の掛け算を通じてモデルが情報を処理・変換します。

この分野では、エヌビディアのCUDAの競争優位性が弱まっていると考える人も多いです。なぜなら、DeepSeekはCUDAの制約を超えて、さらに高度な最適化を実現しているからです。通常、CUDAではcuBLASやCUTLASSといったライブラリを使用してGEMMオペレーターが最適化されます。しかし、これらはエヌビディアの汎用実装に依存しており、柔軟性に制限があります。

DeepSeekは、Streaming Multiprocessors(SM)やLevel 2(L2)キャッシュをより効率的に活用することで、行列計算を細かく分割し、ハードウェアの利用効率を最大化しています。

独自のFP8 GEMMオペレーターの強み

DeepSeekは、CUDAの標準的な最適化に頼るのではなく、独自のFP8 GEMMオペレーターを開発することで、メモリアクセスのパターンをより細かく制御し、レイテンシーを低減し、スループットを向上させています。

この独自のFP8 GEMMオペレーターを活用することで、DeepSeekは最先端のLLMをFP8の混合精度でトレーニングすることに成功しました。これは、AIモデルのトレーニングにおける画期的な成果です。一方で、NVDAのGEMMオペレーターは現在FP16のみをサポートしており、FP8には対応していません。

クラスターネットワークの最適化

さらに、DeepSeekはGPU内のSM(Streaming Multiprocessors)を活用してクラスターネットワークを強化し、帯域幅の制約を緩和しています。このアプローチにより、16パイプラインの並列処理が可能となり、他の企業が実現できなかった最適化を実装しています。これらの高度な最適化は、CUDAの標準的な機能だけでは実現不可能です。

このように、DeepSeekは2倍の性能向上をもたらす最適化を何重にも重ねることで、METAが必要とするGPUクラスタのわずか1/8の規模で、高性能なモデルのトレーニングを実現しています。これは、DeepSeekの最適化戦略の成果と言えるでしょう。

DeepSeekのトレーニング自動化プラットフォームの優位性

DeepSeekが優れているもう一つの分野が、トレーニングの自動化プラットフォームです。このプラットフォームは非常に効率的かつ高い耐障害性を備えており、不可逆的な損失を最小限に抑えながらモデルをトレーニングできます。

DeepSeekによると、システムの故障率やダウンタイムは極めて低いとのことです。これに対し、メタ・プラットフォームズはLlama 3のトレーニング中(54日間)に419回のハードウェア障害を経験し、平均すると3時間ごとに1回の故障が発生していました。DeepSeekの障害率が低い理由の一つとしてクラスタ規模の小ささが挙げられますが、エンジニアリングの能力こそが、ソフトウェアの革新を効率的なインフラ運用へと落とし込む鍵となっています。

大規模LLMトレーニングの難しさ

例えばアマゾン(AMZN)は、Titanプロジェクトに14億ドル以上を投資しましたが、実用レベルのLLMを作ることができませんでした。これは、最先端のLLMを一度の試行で完璧にトレーニングすることが極めて難しいことを示しています。

多くの企業は、大規模なLLMのトレーニング中に深刻なエラーを経験し、何度も失敗と再試行を繰り返さなければ実用的なモデルにたどり着けません。このプロセスは、まるで錬金術師がさまざまな材料を試しながら、ようやく使える成果物を生み出すようなものです。メタ・プラットフォームズ、OpenAI、Anthropic、アルファベット(GOOG)も同様の課題に直面し、次世代モデルを開発しながらも、それを実用レベルに引き上げることに苦戦していました。その結果、リリースを延期したり、モデルを再トレーニングすることが頻繁に発生していました。

DeepSeekの圧倒的な効率性

GPU時間の観点から見ると、Llama 3 405Bのトレーニングには3000万時間のH100 GPU時間が必要でした。しかし、失敗や再試行、チェックポイントの消失を考慮すると、実際の消費時間は1億時間を超える可能性があります。これは、DeepSeek V3が必要としたGPU時間の約40倍にも相当します。

特にアマゾンのような新規参入企業は、LLMトレーニングのインフラ最適化に関する経験が不足しているため、実際のGPU時間はさらに増える可能性があります。

DeepSeekの低コストが実現可能な理由

このような背景を踏まえると、DeepSeekのトレーニングコストが驚くほど低く見えるのは当然とも言えます。なぜなら、DeepSeekは1回のトレーニングで完璧なモデルを構築できるからです。

DeepSeekは約250万GPU時間で最先端のモデルをトレーニングすることが可能です。単純にGPU時間だけで比較すると、Llama 3 405BはDeepSeek V3の約12倍の時間を必要としました。

さらに、メタ・プラットフォームズはDeepSeekの8倍のGPUを使用し、より高いNVLink帯域幅を持っていたにもかかわらず、はるかに多くのリソースを必要としました。これは、DeepSeekの効率性が、クラスタの小ささやGPU性能の限界を補っていることを示しています。

DeepSeek(ディープシーク)のクロスGPU通信の最適化

DeepSeekは、CUDAの標準ライブラリを上回るカスタムオペレーターを開発するだけでなく、トレーニングフレームワーク全体を最適化し、クロスGPU通信を大幅に改善しています。その中でも特に重要なのが、各トークンの通信範囲を最大4ノードまでに制限する手法です。これにより、長距離通信によるネットワーク負荷の増加や計算リソースのアイドル時間を削減することが可能となりました。

また、各トークンは1ノード内の平均3.25(最大4つ)のエキスパートに割り当てられます。これにより、InfiniBandとNVLinkの帯域幅負荷のバランスを最適化し、効率的な通信を実現しています。

「Warp Specialization」による通信効率の向上

DeepSeekはさらに、「Warp Specialization」と呼ばれる新技術を導入しました。この技術では、H800に搭載された132基のSM(Streaming Multiprocessor)のうち、20基をネットワーク処理専用に割り当て、残りのSMは計算に集中させる構成を採用しています。この通信タスクの動的な分配は、PTX(Parallel Thread Execution)と呼ばれるエヌビディアの低レベルGPUアセンブリ言語を用いて管理されています。

DeepSeekのハードウェア・ソフトウェア最適化の強み

これらの最適化は、DeepSeekのハードウェアとソフトウェアに関する高度な専門知識を示しており、他のAIラボがまだ到達していないレベルのインフラ最適化を実現しています。多くのAIラボが高レベルの抽象化に注力する中、DeepSeekはハードウェアの特性を活かし、ソフトウェア戦略と組み合わせることで、計算と通信の効率を最大化しています。

このアプローチこそが、DeepSeekがAIモデルのトレーニングにおいて新たな限界を押し広げている理由です。

DeepSeek(ディープシーク)はH100を保有しているのか?

この時点で、DeepSeekがH100 GPUを保有しているかどうかは、それほど重要な問題ではありません。なぜなら、DeepSeekはH800 GPUを用いて十分に高性能なモデルをトレーニングできることを証明しているからです。しかし、それでも同社は入手可能なGPUの数に制約を受けているのが現状です。

DeepSeekは、約10万基のA100およびA800 GPUにアクセスできるものの、その成長の可能性はGPUの供給量に依存しています。特にA100は大量生産されなかったため、High FlyerはAIを活用したクオンツ投資研究の目的で大量に購入しました。

High FlyerのAIインフラ投資

2019年、High FlyerはAI企業を設立し、独自のディープラーニングトレーニングプラットフォーム「Firefly No.1」を開発しました。このプロジェクトには約2億元の投資が行われ、1,100基のGPUが搭載されました。

その2年後(2021年)には、「Firefly No.2」への投資額が10億元に増加し、約1万基のNvidia A100 GPUを搭載する大規模なインフラを構築しました。

A800の確保とH800の供給制約

2022年第4四半期から2023年第4四半期の間、DeepSeekは必要なだけのA800を確保することができました。これは、H100の生産が本格化し、多くの買い手がより高性能でコスト効率の良いH100の入荷を待っていたためです。

しかし、H800の供給は依然として制約を受けていました。なぜなら、H800はH100と同じダイ(半導体チップ)を使用しており、そのH100自体が在庫不足の状態にあったからです。

その結果、DeepSeekは現在のH800クラスタを無限に拡張することはできません。仮に2048基以上のGPUを増強しようとすると、NVLinkの帯域幅制限がより顕著な問題となるでしょう。

DeepSeekはH100を入手するのか?

DeepSeekはいずれH100を調達する可能性がありますが、主な制約はコストと供給状況です。米国の制裁措置を受けて、リセラー(再販業者)はH100をさまざまな経路で中国に輸送し、利益を得るようになりました。一般的には、アジア各国でH100の注文を確保し、それを中国へ転送する形が取られていました。

これは、H100のようなGPUが核兵器のような厳格に規制された品目ではなく、コモディティ(一般的な商品)として扱われているため、追跡や規制が難しいことが背景にあります。

H100市場の変動

制裁が始まった当初、H100サーバーは100%以上のプレミアム(上乗せ価格)で取引されていました。しかし、2024年半ばにはプレミアムが大幅に縮小し、リセラーは従来の3~6か月のリードタイム(納期)ではなく、即納オーダーも受け付けるようになりました。

さらに2024年後半には、多くのリセラーが損失を被り、市場から撤退し始めました。その結果、残った販売業者はH100サーバーを米国の過去の市場価格よりも低価格で提供するようになりました。この動きは、エヌビディアがH100の出荷量を増やしたこと、およびTSMC(TSM)のCoWoS(チップオンウエハーオンサブストレート)供給の改善によるH100の供給過多と一致しています。

特に注目すべき点として、イーロン・マスク率いるX.aiのような新興企業でさえ、わずか3か月でエヌビディアのジェンスン・フアンCEOから10万基のH100を確保できたことが挙げられます。

DeepSeekがH100を調達する場合の可能性

現在の市場環境を考慮すると、DeepSeekがH100を調達することはそれほど難しくないと考えられます。仮に数千基のH100を入手しようとする場合、大きな障害はないでしょう。

しかし、2万基以上のH100を確保しようとすると、その規模の大きさから目立ちすぎる可能性があり、不要な注目を集めるリスクが生じるかもしれません。

DeepSeek(ディープシーク)のトレーニングコスト

(出所:DeepSeek)

DeepSeekは、わずか600万ドルのコストでOpenAIやメタ・プラットフォームズを上回るモデルをトレーニングしたといわれていますが、これは誇張された表現です。実際の差は、純粋なGPU使用時間で見ると約12倍、インフラ規模では約8倍と考えられます。

具体的には、DeepSeek V3は2,000基のH800 GPUでトレーニングされたのに対し、メタ・プラットフォームズは24,000基のクラスターのうち16,000基を使用しました。DeepSeekのトレーニングコストは約557.6万ドルと見積もられており、この計算はGPU1時間あたり2ドルの単価を基にしています。

一部では「1時間2ドルは低すぎる」との指摘もありますが、特にAWSがH100のクラウド利用で約3ドルを請求することを考えると、その意見にも一理あります。しかし、DeepSeekはインフラをすべて自社で保有しており、コストの高いフル帯域幅のNVLinkスタックを必要としないため、これが可能になっています。

設備投資(Capex)の観点では、2048基のH800の価格は1基あたり3.5万ドルと仮定すると、合計で約7,200万ドルの価値があると考えられます。また、GPUコストがデータセンター全体の設備投資の50%を占めると仮定すると、2048基のH800クラスター全体のコストは約1億4400万ドルになると推定されます。

DeepSeekのコスト優位性のまとめ

 運用コスト(GPU使用時間ベース) → 約12倍低コスト

 インフラコスト(GPUクラスター規模ベース) → 約8倍低コスト

 設備投資(データセンター全体の建設費) → 約10倍低コスト(中国に拠点を持つことで、部品調達やデータセンター建設のコストが抑えられるため)

DeepSeekの他社との比較

他の企業がクラウドレンタルGPUを利用したケースと比較すると、Databricksはクラウド上の3072基のH100 GPUを3か月間使用し、合計約600万GPU時間を消費しました。そのトレーニングコストは約1000万ドルと報告されています。

また、スノーフレーク(SNOW)は1000基以上のH100 GPUを3か月間使用し、Arcticモデルのトレーニングに約500万ドルを投じました。ArcticはDatabricksのモデルよりも高性能で、より多くのエキスパート(専門モデル)を活用しています。

DeepSeekの効率性は現実的な範囲

DeepSeekの計算効率は非常に優れているものの、スノーフレークのように効率的なトレーニングを達成した企業も存在するため、完全に異常なレベルではないと考えられます。

主な違いとして、DeepSeekはエキスパートの数を2倍に増やし、より革新的なアルゴリズムを活用している点が挙げられます。また、使用するH800はNVLinkの帯域幅が制限されているため、その制約の中で最適化を行っていることも特徴です。

西側のAI企業とDeepSeekの比較

西側のAI企業とDeepSeekを比較すると、トレーニング効率の面ではスノーフレークが最も近いと考えられます。スノーフレークはDeepSeekと同様に資本制約を抱えつつも、効率的なAI技術に特化したトップクラスの人材採用に積極的に投資しています。特に、企業向け技術に最適化された高度なMoE(Mixture of Experts)アーキテクチャに力を入れています。

他の企業ではMoEの活用が限定的であるのに対し、スノーフレークは128エキスパートのMoEモデルをDeepSeekと同等の効率でトレーニングすることに成功しており、この分野での大きな可能性を示しています。

DeepSeekの設備投資(Capex)の実態

以前、DeepSeekの設備投資(Capex)は約1億4400万ドルと推定しましたが、これはあくまでV3のトレーニングに使われた単一のGPUクラスター(2000基のGPU)に対する試算です。

しかし、DeepSeekが現在のV3やR1のレベルに到達するまでには、過去数年間にわたり、さまざまなモデルを試行し、実験を重ねてきたことは明白です。そのため、DeepSeek V3の推定Capex(1億4400万ドル)と、OpenAI、Anthropic、X.aiのような企業が数十億ドル規模のCapexを投じて開発した多数のモデルやクラスターを単純に比較するのは適切ではありません。

実際のところ、DeepSeekの累積Capexは、西側の大手AI企業にかなり近い水準になっている可能性が高いです。

DeepSeekの将来的なインフラ規模

今後、DeepSeekがフルスケールの運用を実現するためには、1万基以上のA100/A800 GPUと、1万基以上のH100/H800 GPUを保有する必要があると考えられます。合計で2万基以上のGPUを確保すると仮定した場合、帯域幅やインターコネクトの制約を考慮すると、DeepSeekが構築可能な最大クラスター規模のベストケースとして、以下の構成が考えられます。

 A100クラスター:最大4,000基

 H800クラスター:最大2,000基

しかし、現在、Hopperアーキテクチャのサーバー部品が供給過多となり、需要が低迷しているため、DeepSeekはさらに大規模なクラスターを構築できる可能性があります。

仮に、A100/A800が1基あたり2万ドル、H100/H800が1基あたり3.5万ドルとすると、1万基ずつ購入した場合のGPUコストは合計5億5000万ドルになります。

さらに、DeepSeekはH20 GPUを無制限に調達できる環境にあり、H20の価格は1基あたり1万2000ドルです。仮に3万基のH20を購入すると、その費用は3億6000万ドルに達します。

これらを踏まえると、GPUコストがデータセンターの設備投資(Capex)の50%を占めると仮定した場合、DeepSeekがこれまでにトレーニングおよび推論インフラに投じた総費用は、約18億ドルと見積もられます。

これまでの議論はすべて事前学習に関するもの

ここまでの議論は事前学習(pre-training)に関するものでした。しかし、OpenAIやAnthropicなどが開発するRLHFed(強化学習を活用した人間のフィードバック)やTTT(Test-Time Training)モデルでは、事後学習(post-training)に多くのGPU時間が費やされています。

この点で重要なのは、DeepSeekの事後学習における資源消費が驚くほど低いことです。DeepSeek V3のSFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)によるCoT(Chain-of-Thought)トレーニングは、わずか5000 GPU時間(約1万ドルのコスト)で完了しました。

これは、「事後学習には莫大なコストがかかり、事前学習のコストを上回る可能性がある」という一般的な認識に対する挑戦とも言えます。

DeepSeekの事後学習のコスト効率を示す事例

例えば、ImageNetデータセットを作成した著名なAI研究者であるフェイフェイ・リー教授は、DeepSeekが採用する手法に近い強化学習アルゴリズムを用いたファインチューニングのコスト効率を最近実証しました。

彼女はアリババ(BABA)のQwen-32B-Instructモデルに強化学習を適用し、S1-32B推論モデルへと進化させました。このモデルはOpenAIのo1やR1モデルを上回る性能を発揮しています。驚くべきことに、このファインチューニングにはH100 GPU 16基を26分間使用しただけで、レンタルコストはわずか50ドルでした。

High FlyerのAI事業拡大と資本力

High FlyerがAI事業を拡大できるかどうかは資本力に大きく依存しています。

過去10年間の運用資産残高(AUM)が平均700億元だったと仮定すると、運用管理手数料(管理フィー)だけで140億元以上を得た可能性があります。さらに、年平均15%のリターンを上げ、成功報酬(キャリー)を20%と仮定すると、700億元のAUMに対して過去10年間で約210億元のキャリー収益を得た計算になります。

これらを合算すると、High Flyerは過去10年間で約280億元(1ドル=7元換算で約40億ドル)の利益を上げた可能性があります。このうち半分以上がAIインフラの構築や運営費用に投じられたと考えられます。

一方、市場のコンセンサス予測では、High Flyerの管理フィー収益は近年で約100億元に達しており、成功報酬(キャリー)は好調な年には数十億元規模に達するともいわれています。したがって、実際の利益はこの推定よりもさらに大きい可能性があります。

そして、今後、High FlyerがAIクラスターをさらに拡大するためには、外部資本の調達が必要となるでしょう。

現時点で、DeepSeekはすでに外部投資家を対象とした資金調達ラウンドを計画しているとみられ、その投資家には産業プレイヤーや大手テクノロジー企業(Huaweiなど)が含まれる可能性があります。

DeepSeek(ディープシーク)とHuaweiの協力関係

DeepSeekは現在、Huaweiと協力し、HuaweiのAscend 910Bチップを大規模LLMのトレーニングおよび推論に統合する取り組みを進めています。

米国の制裁が継続する中、Huaweiは最新のチップ(モバイルSoC、サーバーチップなど)の詳細を公表することに慎重な姿勢を取っています。しかし、Huaweiがスーパー・マイクロ・コンピューター(981 HK:元TSMCのR&D責任者が指揮)と共同で、高収率の7nmプロセスを開発し、多重パターニングを活用した液浸DUV技術で製造を進めていることは明らかです。

Ascend 910Bの性能とHuaweiのAIインフラ

Huaweiはすでに、Ascend 910BがA100に匹敵する性能を持ち、15,000基以上のアクセラレーターを使用して1兆パラメータを超えるモデルのトレーニングをサポートできることを実証しています。

エヌビディアのGPGPUとは異なり、Ascend 910BはAIワークロードに特化して設計されており、CPUコアとTensorコアを内蔵しています。一方、エヌビディアのGPUはGrace CPUとの組み合わせ(Grace-Hopperチップ)を必要とするため、AI向けに最適化された構成とは言い切れません。

さらに、Huaweiは10万基以上のアクセラレーターを搭載したクラスターを開発中であり、これが実現すればAI分野での競争力を大幅に向上させる可能性があります。

Huaweiチップを活用するDeepSeekの可能性

理論上、DeepSeekはHuaweiのAscend 910Bを活用することで、エヌビディアのGPGPUに依存せずに次世代モデルを開発できる可能性があります。特に、今後さらに制裁が強化されることでNVDAのGPU供給が制約を受ける可能性が高い中、Huaweiのチップは貴重な代替手段となる可能性があります。

さらに、2024年2月7日、HuaweiはAscend AIチップを搭載したHuawei CloudおよびTencent Cloud上でDeepSeekモデルの一般提供を開始したと発表しました。このプラットフォームでは、高性能エヌビディアGPUと同等のパフォーマンス効率を達成しています。

本稿は以上となります。引き続き、分析レポートの執筆を通じて、DeepSeek(ディープシーク)を含むAI市場の最新情報をお届けしていきますのでお見逃しなく!


🚀お気に入りのアナリストをフォローして最新レポートをリアルタイムでGET🚀

コンヴェクィティ社はテクノロジー銘柄に関するレポートを執筆しており、プロフィール上にてフォローをしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることができます。

さらに、その他のアナリストも詳細な分析レポートを日々執筆しており、インベストリンゴのプラットフォーム上では「毎月約100件、年間で1000件以上」のレポートを提供しております。

そのため、コンヴェクィティ社のテクノロジー銘柄に関する最新レポートに関心がございましたら、是非、フォローしていただければと思います!


✨ 知識は共有することでさらに価値を増します✨

🚀この情報が役立つと感じたら、ぜひ周囲の方とシェアをお願いいたします🚀


加えて、足元では、市場の投資家が最も注目すAI関連銘柄であるパランティア・テクノロジーズ(PLTR)に関する下記の詳細な分析レポートも執筆しておりますので、インベストリンゴのプラットフォーム上より併せてご覧ください。


アナリスト紹介:コンヴェクィティ

📍テクノロジー担当

コンヴェクィティのその他のテクノロジー銘柄のレポートに関心がございましたら、こちらのリンクより、コンヴェクィティのプロフィールページにてご覧いただければと思います。


インベストリンゴでは、弊社のアナリストが「高配当銘柄」から「AIや半導体関連のテクノロジー銘柄」まで、米国株個別企業に関する分析を日々日本語でアップデートしております。さらに、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は「250銘柄以上」(対象銘柄リストはこちら)となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームより詳細な分析レポートをご覧いただければと思います。