04/09/2025

Moonshot AI(ムーンショットAI)とは?「Kimi 1.5」とは?中国は最先端レベルのAI技術を示唆?

a red and white rocket ship flying through the skyコンヴェクィティ  コンヴェクィティ
  • 本稿では、「Moonshot AI(ムーンショットAI)とは?」、「Kimi 1.5とは?」という疑問に答えるべく、競合他社との比較を通じて、同社の「Kimi 1.5」に関して詳しく解説していきます。
  • Moonshot AI(ムーンショットAI:北京月之暗面科技有限公司)の「Kimi 1.5」は、中国の主要研究機関が独自に最先端レベルのAI技術を実現していることを示しており、中国のモデルがOpenAIの知的財産に依存しているという主張を弱めています。
  • Kimi 1.5は、複雑なDPOベースのアプローチにより高い性能と独自の特徴を実現していますが、DeepSeekのよりシンプルなGRPO手法の方がコスト効率に優れ、より利用しやすい状況です。
  • Moonshotの主要支援企業であるアリババ(BABA)は、Kimiの成功による恩恵を最も大きく受ける立場にあると見ており、中国におけるAIの進展を反映する上場企業として最適な存在であるように見えます。

はじめに

​Moonshot AI(ムーンショットAI:北京月之暗面科技有限公司)は、中国・北京に本社を置く人工知能(AI)企業で、​2023年3月に楊植麟(Yang Zhilin)氏らによって設立され、同年10月にはAIチャットボット「Kimi」を発表しました。

Moonshot AIによる「Kimi 1.5」の公開は、中国の主要なAI研究機関、特にDeepSeekとMoonshotが、独自の技術革新によって最先端レベルの推論能力を実現していることのさらなる証拠となっています。DeepSeekがOpenAIのモデルをリバースエンジニアリングまたは模倣したという見方は広く流布されていますが、Kimi 1.5はそのような主張を大きく揺るがす存在です。Kimi 1.5は、まったく異なるトレーニングアーキテクチャとDPOの活用に基づく、エンジニアリング集約型の独立した手法でも、DeepSeek R1やOpenAIのo3に匹敵する性能が達成可能であることを示しています。特に、Kimi 1.5には、画像のネイティブ理解や効率的な短いCoT(Chain of Thought)処理といった実用的な利点も追加されています。

OpenAIが最近、自社モデル(o3 miniから開始)において推論中間トークンの公開を決定したことは、中国の研究機関、特にDeepSeekによるGRPOアルゴリズムのオープンソース化といった透明性と革新性に対する圧力が高まっていることを示唆しています。Moonshotが独自に推論モデルを開発することに成功している一方で、XaiやAnthropicといった他の欧米の研究機関は、こうしたタイプの推論モデルをまだ発表しておらず、同業他社のブレークスルーを待ってから動き出そうとしているように見えます。

この流れは、グローバルなAIの競争環境において重要な転換点を意味しています。中国の主要研究機関は、もはや単に追いつこうとしているのではなく、推論モデル設計の根本的な革新をリードする存在となりつつあります。市場はこの変化を真剣に受け止めるべきです。Kimi 1.5の成功はまた、DPOのような手間と精緻さを要するエンジニアリング主導のアプローチでも最先端モデルが生み出せることを証明しており、進捗の遅さが指摘されるメタ・プラットフォームズ(META)のような企業であっても、同様の戦略を積極的に採用すれば、市場を驚かせる可能性があることを示唆しています。

投資の観点から見ると、アリババ(BABA)はこのトレンドの恩恵を最も手軽に享受できる銘柄として際立っているように見えます。Moonshotにとって最大の資金およびインフラ支援者であるアリババは、DeepSeekが非上場企業のままであることも踏まえ、Kimiの技術的進展による直接的な利益を受ける立場にあります。Kimi 1.5の背後にあるアーキテクチャは、AIインフラ戦略においても変化の兆しを示しており、従来の分散的な計算環境ではなく、トレーニングと推論を統合したクラスターへと向かう可能性が高まっています。

また、エヌビディア(NVDA)がGTC 2025で「Dynamo」を発表したことで、このような方向転換は、Groqのような推論特化型AIチップメーカーや、より小規模ながらCerebrasといった企業の将来的な競争力に対しても疑問を投げかけています。

これらを総合すると、Kimi 1.5は単なる新たな最先端モデルにとどまらず、中国におけるAI能力の戦略的な加速を象徴するものであり、世界のAIサプライチェーンおよび投資環境における重要な二次的影響を示唆していると言えます。

Kimiの概要

急速に進化している中国のAI研究機関はDeepSeekだけではありません。2025年1月25日、Moonshot AIは最新モデル「Kimi 1.5」を発表しました。このモデルは、チェーン・オブ・ソート(CoT)推論能力を強化したものです。

(出所:Kimi k1.5: Scaling Reinforcement Learning with LLMs

多くの点で、Kimi 1.5は実際にDeepSeek R1よりも性能が高く、成熟度があり、機能も豊富なモデルとなっています。Kimi 1.5は、長文および短文のCoTデータの両方でトレーニングされており、短いCoTによって簡単な質問に対しては高速かつ低コストで回答し、長いCoTによって複雑な質問にも対応できますが、その分処理速度は低下しコストは上昇します。この「デュアルCoT」機能は、OpenAIが2025年1月30日に「o3 mini」をリリースしたことで初めて導入されたものです。

Kimi 1.5は、テキストと画像を含む複数のデータ形式でネイティブにトレーニングされており、これはTTT型の推論モデルとしては初の試みです。Moonshot AIは、単にマルチモーダル性を満たすだけでなく、画像から長大なデータ表を正確に抽出するなど、複雑なタスクに対応できるようKimi 1.5を綿密にチューニング・最適化しています。私たちはこの機能を簡易的にテストし、65行の表を含む画像に対するKimi 1.5の処理性能を、OpenAIのo1、DeepSeek R1、Grok-2、OpenAIの4o、その他のモデルと比較しました。

R1はSTEM領域の質問に特化しており、記事編集などの一般的なテキストタスクでは中程度の性能にとどまっていますが、Kimi 1.5はその点でo1に近い結果を出す一方で、ネイティブなマルチモーダル対応とウェブ検索機能も備えています。

総じて、Kimi 1.5はR1よりも高性能である一方、コスト競争力ではやや劣る可能性があります。たとえば、Moonshotの公開APIは、コンテキストウィンドウが8kのモデルで100万トークンあたり12人民元という価格設定になっています。これに対し、DeepSeekは64kのコンテキストウィンドウを提供しており、100万入力トークンあたり1人民元(キャッシュヒット時は0.1人民元)、100万出力トークンあたり2人民元でAPIアクセスが可能です。

Kimi 1.5は、R1ほど大きな注目を集めませんでした。その主な理由は、DeepSeekがオープンソース化を積極的に進めている一方で、Moonshot AIはOpenAIと同様に、よりクローズドでプロダクト中心のビジネスモデルを採用しているためだと考えられます。DeepSeekが基礎的な研究開発に注力しているのに対し、Moonshot AIはKimiのチャットアプリにおける1日あたりのアクティブユーザー(DAU)を増やすために、広告宣伝に多額の投資を行っています。DeepSeekの簡素なWebユーザーインターフェースとは異なり、Kimiは音声入力や参考資料のインタラクティブな要約といった、使いやすい機能を備えた洗練されたインターフェースを提供しています。しかし、そのプロダクト化への注力と独自路線の姿勢により、Kimiはオープンソースや研究コミュニティの中で目立ちにくい存在となっています。

一方、DeepSeekはR1やV3などのモデルを公開しただけでなく、R1を圧縮・簡易化したQwenやLLaMA派生モデルといったオープンソースモデルもリリースしており、オープンソースユーザーが実験や構築を行いやすい環境を整えています。

Kimi 1.5とR1がほぼ同時期に登場し、それぞれ異なる手法でチェーン・オブ・ソートの生成プロセスを完全に開示したことで、OpenAIにとっては、これらの企業がo1を単に圧縮して独自のTTTモデルを構築したわけではないことが明らかになりました。その結果、OpenAIも「o3 mini」のリリース以降、推論プロセスを明らかにするために中間トークンをエンドユーザー向けに開示し始めました。

さらに注目すべきことは、o1のリリースから1四半期が経過してもなお、Anthropicを含む主要な欧米のAI研究機関はいずれも独自のTTTモデルを発表していなかったのに対し、複数の中国の研究機関はすでにそれを実現していた点です。これは、他の研究機関がOpenAIの影響を強く受けすぎてしまい、独自モデルの開発やスケーリング法則、その他の理論的研究に注力しすぎた可能性がある一方で、DeepSeekのような中国の研究機関は、実装やインフラの最適化といった実務面により重点を置いていたことを示しています。こうした低レイヤーかつ細部にわたる作業は、通常AI研究者ではなく、システムやインフラ系のエンジニアが担う領域ですが、西側の組織ではこの分野の進捗が中国と比べて遅い傾向が見られるかもしれません。また、多くの欧米の研究機関は、強化学習(RL)やMixture of Experts(MoE)モデルのようなアルゴリズム的に複雑で高度な手法への投資を避けてきたという見方もできるでしょう。

Kimi 1.5の詳細について

OpenAIや他の最先端モデル研究機関とは異なり、MoonshotはDeepSeekと同様に、自社のトレーニングおよび推論インフラの詳細を公開しています。全体的に見ると、Moonshotはモデルや周辺システムの構築において、エンジニアリング上の工夫や調整に重きを置いているのに対し、DeepSeekはシンプルで高品質な設計を重視することで、より高性能かつ効率的なモデルとインフラを実現しています。

Kimi 1.5は、その機能面においてはDeepSeekを上回るほど非常に印象的かつ高度な仕上がりとなっていますが、効率性という点では劣る可能性もあります。R1と同様に、Kimi 1.5も強化学習(RL)を用いたシンプルなアプローチでTTTモデルのトレーニングを行っており、モンテカルロ木探索(MCTS)や価値関数、プロセス報酬モデルといった複雑な仕組みには依存していません。

オンポリシーDPO

しかし、Kimi 1.5の中核となる強化学習(RL)アルゴリズムは、あまり一般的ではない「オフポリシー」アプローチに基づいています。RLには大きく分けてオンポリシーとオフポリシーという2つの学習カテゴリがあります。オンポリシーRLは、モデルがリアルタイムの相互作用を通じて学習・進化することを可能にするため、「純粋な」強化学習と見なされることが多く、人手によるラベル付きデータに大きく依存しないのが特徴です。この代表的な例が、OpenAIが2022年にInstructGPTとともに導入した「PPO(Proximal Policy Optimization)」です。PPOは、人間のフィードバックを用いた強化学習(RLHF)と組み合わせることで、GPT-3の応答を人間の好みにより適合させ、使いやすさを大幅に向上させました。

このブレークスルーの後、InstructGPTおよびアライメントチームの中核メンバーはOpenAIを離れ、より安全で整合性の高い大規模言語モデル(LLM)の構築を目指す企業として「Anthropic」を設立しました。一方、メタ・プラットフォームズはRL分野で後れを取り、初のRLHFトレーニング済みモデルであるLLaMA 3を2024年4月になってようやくリリースしました。同時期、DeepSeekはPPOのよりシンプルかつ効率的なオンポリシー代替手法として「GRPO(Generalized Rejection-based Policy Optimization)」を発表しました。2024年時点では、多くの研究機関が依然として、かつてはOpenAIとAnthropicに限定されていたRL技術に追いつこうと競っています。

これに対し、オフポリシー学習はエンジニアリングの複雑さが高いため、あまり広く採用されていません。PPOですらGRPOと比べて数桁の複雑さがありますが、オフポリシー手法はさらに高度で、大量の事前収集データと細かいシステムレベルの最適化を必要とします。とはいえ、オフポリシー手法には明確な利点があります。モデルが能動的な相互作用を行わずとも既存のデータセットから学習できるため、スケーラビリティや制御性が高く、クローズドな研究機関にとって扱いやすいという特徴があります。また、安全性や規制準拠、企業向けの特定用途において求められる安定的かつ再現性のあるアライメント処理を可能にする点も、大きなメリットです。

Kimi 1.5は「DPO(Direct Preference Optimization)」というオフポリシー型のRLアルゴリズムを採用していますが、Moonshotはその具体的な実装については明かしていません。これは、OpenAIやAnthropicと同様、独自技術として非公開の姿勢を取っているためと考えられます。

データとプロセス

その結果、Kimi 1.5は、事前により多くのデータを使用し、より複雑なトレーニングパイプラインを採用しています。これは、より効率的なGRPOベースの手法を用いているDeepSeek R1のアプローチを考慮すれば、必ずしも必要ではないとも言えるかもしれません。

DeepSeekは、GRPOを活用することで、V3が自己学習を通じてR1-zeroへと進化できる仕組みを構築しています。R1-zeroによって生成されたコールドスタートデータは、V3のファインチューニングに使用され、その後再びGRPOベースの自己学習が行われます。一方、MoonshotはKimi 1.5のトレーニングに直接CoTデータセットを使用しています。これらのデータセットが具体的にどのように構築されたかについては公表されていませんが、Moonshotは複雑なプロンプトエンジニアリングと独自の軌道設計アルゴリズムを用いて、大規模なCoTトラジェクトリ(思考の流れ)を生成したと述べています。

Kimi 1.5が導入した主な技術革新として、以下の点が挙げられます:

  • 長コンテキストスケーリング:モデルは最初に小さなコンテキストウィンドウでトレーニングされ、徐々にそのウィンドウサイズを拡張することで、段階的な性能向上を実現しています。

  • 強化された方策最適化:トレーニングプロセスからクリティックモデルおよびそれに関連する価値関数を除外し、アーキテクチャを簡素化するとともに学習の複雑さを軽減しています。

  • 簡素化されたフレームワーク:効率向上を目的としてMoonshotが独自に設計したトレーニングフレームワークを使用しています。

  • マルチモーダル対応:視覚データをトレーニングに取り入れることで、画像ベースのタスクにおける性能を向上させています。

しかし、Kimi 1.5の技術レポートは、高レベルな概要にとどまっており、DeepSeekのR1論文で示されたような詳細な手法の記述は含まれていません。Moonshotは春節前に報告書を急いで公開した可能性があるように見受けられます。

また、Kimi 1.5は人手によるラベル付けデータや手動の監督により大きく依存しています。長いCoT(Chain of Thought)例に対してSFT(Supervised Fine-Tuning)を行い、その後の強化学習(RL)段階では人間による評価を通じて性能を洗練させています。RLの初期段階では、Moonshotは長いCoTの例を用いて、モデルが自己質問や自己進化へと向かうよう誘導しています。これに対して、DeepSeekのR1ではGRPOを用いて同様の効果を実現しており、数千ステップの学習を経て、モデルが自律的に「なるほど」という気づきに至るようになっています。

さらに、Moonshotはトレーニング中により細かい制御を行っています。たとえば、正しい長文の回答や誤った短文の回答にペナルティを与えることで、CoTの圧縮や拡張の方法をより洗練させています。こうしたきめ細かな調整は、DPOの制約を反映しており、DPOでは多くの手動による介入が必要とされる一方で、R1のGRPOではこのような細かい管理をせずとも、より効果的に一般化できることが示されています。

最後に、MoonshotはKimi 1.5のトレーニングにおいてカリキュラムベースの学習戦略を採用しています。これは、生徒が幼稚園から高校、そして大学レベルへと進むように、段階的に複雑な教材を与える方式です。最初は簡単な算数や英語から始まり、後に化学や物理といったより高度な分野へと進んでいきます。Moonshotによれば、このような段階的な学習プロセスは、構造化されていない一様なデータサンプリングに比べて、モデルの性能を向上させるとされています。

(出所:Moonshot AI)

DPOプロセスのさらに後半では、Moonshotは過去にモデルのパフォーマンスが低かった質問のサンプルを優先的に使って再学習を行い、トークン使用量と性能のバランスを最適化するようにモデルを誘導しました。これにより、効果的な問題解決戦略をモデルが獲得できるようにしています。

Kimiのエンジニアリングへのこだわりはそれだけにとどまりません。トレーニングの後半段階では、Moonshotが視覚能力を構築するために徐々に画像データを導入しました。性能を高めるため、Kimiには実際の画像と合成画像を組み合わせてトレーニングが行われました。さらに、画像内の文字を正確に読み取る能力を強化するため、大量の文字レンダリング画像も使用されました。

全体として、Kimi 1.5のトレーニングパイプラインはDeepSeek R1よりもはるかに複雑であり、DPOが抱える制約――特に、モデルの行動や学習結果を安定的に制御する難しさ――を補うために、高度なエンジニアリングによる精緻な設計が施されています。

(出所:Moonshot)

DPOにおける主要な課題のひとつは、学習プロセス全体において細かな人為的制御を必要とする点です。これに対応するため、Moonshotはまずモデルに不完全な推論の軌道(トラジェクトリ)を生成させるアーキテクチャを設計しました。そして、こうした不完全なトラジェクトリを複数の異なる方法で拡張し、さまざまな推論パスをモデルが探索できるようにします。

また、これらの未完成トラジェクトリはリプレイバッファに保存され、すべてが同じトークン数の上限内に収まるように設計されています。たとえば、保存された出力の一部に基づいて500トークン分のトラジェクトリを生成する、というような形です。その後、モデルはこのバッファ内のサンプルを複数回繰り返し処理することで、最終的に洗練された推論トラジェクトリにたどり着く仕組みとなっています。

(出所:Moonshot)

Moonshotでは、トレーニング(テスト結果からの学習)と推論(テスト問題への回答)が同時に行われるため、トレーニングにはMegatronを、推論にはvLLMを使用し、GPUが両タスクを迅速に切り替えられるよう、洗練されたアーキテクチャを設計しています。

さらにプロセスの最適化を図るため、Kimi 1.5では「long2short」手法が採用されています。これは、長いCoTモデルを使って、より短いCoTモデルを学習させるというもので、トークン長を短くしながらも推論時に高い性能を発揮できる、計算効率に優れたモデルを実現しています。Moonshotは、Kimi 1.5の複数のバリアントをトレーニング済みであり、現在、それらの性能を評価するために「グレースケールテスト」を実施しています。これは、OpenAIが未公開の新モデルを本番に近い環境でテストする方法と類似しています。

(出所:Moonshot「Long2Short Performance」/ k1.5シリーズはすべて、他のモデルと比べてトークン効率が優れている)

全体的に見て、Kimi 1.5はR1といくつかの共通点を持っています。たとえば、どちらのモデルも、o1で使われているようなMCTS(モンテカルロ木探索)などの複雑な探索アルゴリズムを回避しており、CoTデータをSFTやポストトレーニングに利用しています。また、バリューモデルや価値関数を必要とせず、従来の強化学習における報酬設計を用いずに、結果に基づくフィードバックによってモデルを導く方式を採用しています。

しかし、Kimiが用いている強化学習アルゴリズム「DPO」は、アルゴリズム的な観点から見ると、効率性や洗練度の面で劣っています。そのため、Moonshotはモデルの学習プロセスを細かく制御するために、多大なエンジニアリング努力を注ぐ必要がありました。

簡単に言えば、R1は「子どもに自発的な学習を任せ、高い視点から最小限の指導だけを行う賢い親」のような存在です。一方で、Kimiは「学習のあらゆる段階を細かく監視し、指示を出す過保護な親」に近いモデルです。どちらのモデルも、Anthropicのような他の有力研究機関が同時期に達成したレベルを上回る、非常に優れた成果を上げています。しかしながら、DeepSeekのアプローチの方が、効率的かつ再現性が高いという点で優れています。R1はオープンソースであり、トレーニングプロセスも洗練されていて扱いやすくなっています。

一方、Kimi 1.5はクローズドソースであり、トレーニングも非常に複雑で、仮にオープンソース化されたとしても、Moonshotの手法でTTTモデルを再現できるチームは、ごくわずかしか存在しないでしょう。それだけのリソースやツールが必要になるからです。

DPOに依存しているにもかかわらず、Kimi 1.5は実際の運用において極めて高い性能を発揮しており、R1やo1、さらにはo3に対しても強力な代替モデルとなっています。テキストをレンダリングした画像データによるトレーニングのおかげで、Kimiは画像をネイティブに読み取ることができ、長大な表のような複雑な画像ベースの入力も破綻なく処理できます。さらに、Moonshotが行っている高度な研究開発と、大規模なウェブコンテンツRAG(Retrieval-Augmented Generation)展開により、Kimi 1.5は長文推論や動的なウェブ検索においても高い能力を示しています。

したがって、R1とKimi 1.5の比較は、まるで2人の成績優秀な生徒を比べるようなものです。R1はミニマルで洗練されたアプローチをとり、Kimi 1.5は細部にこだわり、努力家で、人間らしい応答と精緻なCoT推論を生み出します。

もう一つの利点として、Kimi 1.5のベースバージョン(長文推論を伴わないもの)でも、短いCoTを活用することで、非TTTモデルよりも複雑な推論タスクにおいて優れた成果を出すことが可能です。これは、Moonshotのテスト結果を示す下記のチャートが明確に証明しています。

(出所:Moonshot)


🚀お気に入りのアナリストをフォローして最新レポートをリアルタイムでGET🚀

コンヴェクィティ社はテクノロジー銘柄に関するレポートを執筆しており、プロフィール上にてフォローをしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることができます。

さらに、その他のアナリストも詳細な分析レポートを日々執筆しており、インベストリンゴのプラットフォーム上では「毎月約100件、年間で1000件以上」のレポートを提供しております。

そのため、コンヴェクィティ社のテクノロジー銘柄に関する最新レポートに関心がございましたら、是非、フォローしていただければと思います!


アナリスト紹介:コンヴェクィティ

📍テクノロジー担当

コンヴェクィティのその他のテクノロジー銘柄のレポートに関心がございましたら、こちらのリンクより、コンヴェクィティのプロフィールページにてご覧いただければと思います。


インベストリンゴでは、弊社のアナリストが「高配当銘柄」から「AIや半導体関連のテクノロジー銘柄」まで、米国株個別企業に関する分析を日々日本語でアップデートしております。さらに、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は「250銘柄以上」(対象銘柄リストはこちら)となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームより詳細な分析レポートをご覧いただければと思います。