OpenAIの「Strawberry」とは、AIに高度な推論能力を持たせることを目指したプロジェクトです。このプロジェクトにより、現在のモデルが苦手としている複雑な数学の問題を解いたり、ウェブ上で自律的に「深いリサーチ」を行うことができるようになります。「Strawberry」は、回答を出す前に考えて計画し、ステップバイステップで解決策を作り、回答を検証するなど、人間に近い推論と意思決定を行うよう設計されています。
また、「Strawberry」はSelf-Taught Reasoner(STaR)技術と関連しており、この技術によりモデルは自身の生成した推論から学び、複雑な推論タスクにおけるパフォーマンスを向上させることができます。この機能により、Strawberryは複雑なマルチステップタスクを実行し、より自律的になり、人間による監督の必要性を減らすことが可能になります。
ChatGPT o1は、Strawberryプロジェクトの一部であり、その成果として生まれたAIモデルです。o1は、「チェーン・オブ・ソート(COT:Chain of Thought)」プロセスを使用して段階的に推論を行い、複雑な問題を解決する能力を持っています。この新しいアプローチにより、o1は科学、数学、コーディングなどの分野でより高度な推論が可能となり、Strawberryの目的である人間レベルの推論に近づいています
そして、Strawberryは画期的な成果であるように見えます。「何がそんなにすごいの?」と疑問に思う方もいるかもしれませんが、新しいスケーリング則がトレーニングと連動して働いており、それが「チェーン・オブ・ソート / 推論(Chain of Thought / Inference)」です。以下のグラフは少し複雑ですが、要点はモデルが「考える」時間が長ければ長いほど、より良い答えが得られるということです。この新しいモデルには、また別の対数線形のスケーリング則が存在します。要するに、計算すればするほど精度が向上し、Richard Sutton氏の「ビター・レッスン」がまたしても勝利したというわけです。
そして、下記のグラフは、質問に答える時間が長いほど、より良い答えが得られることを意味しています。

(出所:OpenAI)
Pro Plan専用コンテンツ

この記事の続きを読むには「Pro Plan」にアップグレードする必要があります。
── 主なPro Plan機能 ──
📊
全レポート無制限閲覧
📈
詳細な財務データ分析
🎯
アナリスト評価&配当履歴
🔔
お気に入り&フォロー通知