ChatGPT o1とStrawberry：アルゴリズムと推論

OpenAIの「Strawberry」とは、AIに高度な推論能力を持たせることを目指したプロジェクトです。このプロジェクトにより、現在のモデルが苦手としている複雑な数学の問題を解いたり、ウェブ上で自律的に「深いリサーチ」を行うことができるようになります。「Strawberry」は、回答を出す前に考えて計画し、ステップバイステップで解決策を作り、回答を検証するなど、人間に近い推論と意思決定を行うよう設計されています。

また、「Strawberry」はSelf-Taught Reasoner（STaR）技術と関連しており、この技術によりモデルは自身の生成した推論から学び、複雑な推論タスクにおけるパフォーマンスを向上させることができます。この機能により、Strawberryは複雑なマルチステップタスクを実行し、より自律的になり、人間による監督の必要性を減らすことが可能になります。

ChatGPT o1は、Strawberryプロジェクトの一部であり、その成果として生まれたAIモデルです。o1は、「チェーン・オブ・ソート（COT：Chain of Thought）」プロセスを使用して段階的に推論を行い、複雑な問題を解決する能力を持っています。この新しいアプローチにより、o1は科学、数学、コーディングなどの分野でより高度な推論が可能となり、Strawberryの目的である人間レベルの推論に近づいています

そして、Strawberryは画期的な成果であるように見えます。「何がそんなにすごいの？」と疑問に思う方もいるかもしれませんが、新しいスケーリング則がトレーニングと連動して働いており、それが「チェーン・オブ・ソート / 推論（Chain of Thought / Inference）」です。以下のグラフは少し複雑ですが、要点はモデルが「考える」時間が長ければ長いほど、より良い答えが得られるということです。この新しいモデルには、また別の対数線形のスケーリング則が存在します。要するに、計算すればするほど精度が向上し、Richard Sutton氏の「ビター・レッスン」がまたしても勝利したというわけです。

そして、下記のグラフは、質問に答える時間が長いほど、より良い答えが得られることを意味しています。

（出所：OpenAI）

関連用語

Self-Taught Reasoner（STaR）：AIモデルが自らの生成した推論から学び、段階的に自分の性能を向上させる技術です。これは、モデルが複雑な推論タスクや問題を解決する際に、ステップバイステップで「考え」を形成するための方法です。STaRにより、モデルは自分自身で反復的にトレーニングデータを生成し、より高度な推論能力を身につけていくことが可能になります。この技術は、OpenAIのプロジェクトStrawberryなどで使用されており、AIの自律性と学習能力を向上させるための重要な要素です。

スケーリング則: モデルのサイズやトレーニングデータ量を増やすと、モデルの性能が向上する傾向を示す法則です。AIモデルが大きくなるほど、より良い結果が得られるとされます。

チェーン・オブ・ソート / 推論（Chain of Thought / Inference）：AIが複雑な問題を解決する際に、一連の論理的ステップを経て思考や推論を行う手法です。これにより、AIは人間のように段階的に考えながら、より正確で深い回答を導き出すことができます。このアプローチを使うことで、単純な質問への対応だけでなく、複雑な問題にも対応できるようになります。

ビター・レッスン: AIの進化において、特定の手法や人間の知識に頼るよりも、大規模なデータと計算能力を活用する方が効果的であるとするRichard Sutton氏の教訓です。

これほど明確な新たな需要の動向を見たのは久しぶりです。最後にAIから生まれる「新しい」需要について私がレポートを執筆したのは、2020年のスケーリング則に関するレポートのときでした。このときは主にトレーニングに焦点を当てていました。

しかし今、新しいスケーリング則がトレーニングと連携して働く可能性が見えてきました。以下はStrawberry後のコンピューティングの姿を簡単に示したものです。これがより大きなモデルを必要としないことを考えると、まったく新しいコンピューティング需要の層が生まれたと言えます。そして、この需要はトレーニングと同じくらいの規模にまで拡大する可能性があります。

（出所：X Corp.@DrJimFan）

上記のグラフはシンプルながら非常に優れたグラフィックだと思います。

では、これが半導体にどう影響するのでしょうか？簡単に言うと、推論によるコンピューティング需要が大幅に増えるということです。今回はトレーニングだけでなく、推論が主役です。これにより、投資家は再びアドバンスト・マイクロ・デバイセズ（AMD）に注目していますが、私はやはりエヌビディア（NVDA）や内部のハイパースケーラーのプロジェクトに魅力を感じています。

推論とトレーニングの両方ができる製品があれば、将来のニーズに備えて両方を購入する価値があります。それがおそらくエヌビディアのGPUです。もちろん、推論関連のスタートアップやAMDにとっても大きな追い風になるでしょうし、もしマイクロソフト（MSFT）がAMDにカスタムプロジェクトを提供すれば、AMDも一定の存在感を維持できるかもしれません。しかし、やはり市場シェアの大部分を維持するのは既存の企業でしょう。

この需要は、まさに次に必要とされていた成長の一歩です。アルゴリズムの改善は、大規模モデルのスケーリングに対する需要を抑える要因となっており、この傾向は今後も続くと考えられます。

（出所：arXiv）

（日本語訳）図5は、計算能力の拡大とアルゴリズムの進歩が効果的な計算にどのように影響を与えているかを示しています。物理的な計算能力の寄与は、Sevillaら（2022年）の倍増時間に基づいて推定されています。一方、アルゴリズムの進歩による寄与は、クロスバリデーションで上位10モデルの倍増時間の集計結果に基づいています（セクション3.1参照）。さらに、GPT-2など、いくつかの注目すべきモデルの発表年における物理的なトレーニング計算量も併せてプロットしています。

ただ、この新しい推論の「法則」は、これまで想像していた以上に需要を生み出すかもしれません。例えばGroqのような企業にとっては、まさに天からの贈り物です。私自身はまだ多少の疑念を持っていますが、推論に注目している全ての人にとって、新たな時代の幕開けと言えるでしょう。また、Shelly Palmerのコストに関する投稿もぜひご覧ください。

（原文）o1 models handle longer context windows, enabling more comprehensive text understanding and generation. This capability allows for processing larger documents, making them valuable for extensive data analysis and document summarization. However, these enhancements come at a cost. The new models require significantly more computational resources, with operational costs estimated up to 10 times that of GPT-4. One company we work with is spending about $60,000 per month on GPT-4. To do the tasks with o1 would cost approximately $3,000 per hour – which is completely out of the question considering that, for all of their capabilities, o1 models operate at slower inference speeds, presenting a serious trade-off between improved reasoning and processing time.

（日本語訳）o1モデルは、長いコンテキストウィンドウを処理できるため、より包括的なテキストの理解と生成が可能です。これにより、大規模なドキュメントの処理やデータ分析、文書の要約などに有用です。しかし、これらの強化には高いコストが伴います。新しいモデルは、GPT-4と比べて最大で10倍の計算資源を必要とし、運用コストが大幅に増加します。ある企業では、GPT-4に月々約6万ドルを費やしていますが、同じ作業をo1で行うと、1時間あたり約3,000ドルかかると見積もられています。このため、すべての能力を考慮しても、o1モデルの推論速度が遅いため、より高度な推論と処理時間との間で大きなトレードオフが生じます。

Strawberryは非常に重要な存在です。より小さなモデルサイズでありながら、優れた結果を生み出すことが可能で、その背後には膨大な推論が活用されています。これは、モデルサイズの縮小と最適化に対する懸念への強力な反証でもあります。モデルが小型化されるほど、より多くの推論計算が行われ、連続した思考の流れでより良い結果が得られるようになります。そして、この傾向はさらに大きなモデルが登場しても続いていくでしょう。

AIモデルは自ら進化し続け、大きな可能性を見せています。強化学習が人手を介さずに行われ、膨大な推論トークンを必要とするようになれば、再び新たな競争が始まるでしょう。Strawberryはそのゲームチェンジャーであり、「ビター・レッスン」がまたしても勝利したと言えるでしょう。

関連用語

Groq：高性能なAIおよび機械学習（ML）向けのアクセラレーターを開発するテクノロジー企業です。同社は、特にディープラーニングやデータ処理における高効率な計算を可能にする独自のプロセッサアーキテクチャを提供しています。これにより、AIモデルの迅速なトレーニングと推論をサポートします。

アナリスト紹介：ダグラス・オローリン / CFA

ダグラス・オローリン氏は、自身が2020年に設立した半導体調査会社ファブリケイティド・ナレッジ社のチーフアナリストを務め、主に半導体関連銘柄とAIセクターの最新動向の分析に焦点を当てています。

ファブリケイティド・ナレッジ社設立以前は、テキサス州ダラスを拠点とする投資会社Bowie Capitalで投資アナリストを務めていました。そして、Bowie Capitalでは、コンパウンダー（長期間にわたって一貫して高いリターンを生み出し、その価値を複利で成長させる能力を持つ企業）とクオリティ重視の投資に焦点を絞って分析 / 投資活動に従事しておりました。

その経験を通じて、オローリン氏は半導体、特にムーアの法則の終焉という変化するストーリーと、それが半導体業界/ 銘柄にとってどのような意味を持つのかに興味を持つようになりました。結果、半導体セクターに対する理解を一層追求するためのプロジェクトとして、ファブリケイティド・ナレッジ社を設立しました。

また、オローリン氏のその他の半導体関連銘柄のレポートに関心がございましたら、是非、こちらのリンクより、オローリン氏のプロフィールページにアクセスしていただければと思います。

半導体銘柄関連レポート

1. マーベル・テクノロジー / MRVL：AI・半導体銘柄の最新の2025年1Q決算速報・財務分析と今後の株価見通し＆将来性

2. エヌビディア / NVDA / 予想配当利回り0.04%： 2025年1Q決算&株式分割を受けてNVIDIAの株価は急騰（前編）

3. アドバンスト・マイクロ・デバイセズ（AMD）最新の2024年2Q決算発表も株価急落！今後の株価見通しと将来性を徹底分析！

さらに、その他のエヌビディア（NVDA）に関するレポートに関心がございましたら、是非、こちらのリンクより、エヌビディアのページにアクセスしていただければと思います。

インベストリンゴでは、弊社のアナリストが、高配当関連銘柄からAIや半導体関連のテクノロジー銘柄まで、米国株個別企業に関する動向を日々日本語でアップデートしております。そして、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は250銘柄以上となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームよりレポートをご覧いただければと思います。

弊社がカバーしている企業・銘柄の一覧ページはこちら

※インベストリンゴ上のいかなるレポートは、投資や税務、法律のアドバイスを提供するものではなく、情報提供を目的としています。本資料の内容について、当社は一切の責任を負いませんので、あらかじめご了承ください。具体的な投資や税務、法律に関するご相談は、専門のアドバイザーにお問い合わせください。