テクノロジーモデルのスケーリングはまだ終わっていませんが、明らかに転換点に差し掛かっています。これまでの定義が変わりつつあり、特にプレトレーニング(事前学習)のスケーリング則が初めて収益逓減(経済学や生産管理における概念で、追加の投入量に対する成果「収益や生産量」が徐々に減少していく現象)の局面に入る兆しを見せています。SemiAnalysisは、これを「プレトレーニングはデナード則の終焉に似ている」とたとえています。ただし、デナード則が終わった後にマルチコアスケーリングがもう10年技術の進化を支えたように、技術は形を変えながら進歩を続けていくものです。
因みに、デナード則とは、1974年にIBMのロバート・デナード(Robert Dennard)とその共同研究者たちによって提唱された、半導体のスケーリングに関する法則です。この法則は、トランジスタが縮小されると性能が向上し、エネルギー消費量が減少することを示しています。

(出所:Karl Rupp)
このグラフを見ていると、私たちは2000年代初頭に似た状況に近づいているのかもしれません。デナード則の終焉という比喩は非常に的確です。そして、プレトレーニングも完全に終わったわけではなく、初めて収益逓減の兆候が見え始めている段階です。より大規模なモデルを作れば性能は向上しますが、プレトレーニングの効果が薄れてきているのも事実です。GPT-4からGPT-5への進化は続くでしょうが、今後の焦点は「モデルをさらに拡大できるか」ではなく、「より大きなモデルをトレーニングすることが経済的に見合うかどうか」という点に移っていくでしょう。
多くの人が忘れがちですが、元々スケーリング法則に関する論文では、桁違いのリソースを投入してもエラー率の改善はわずか10〜30%にとどまるとされていました。GPT-5はその改善範囲の下限に近い可能性が高いですが、仮にエヌビディア(NVDA)がハードウェア性能を5倍向上させたとしても、そのコストは、スケーリングの規模によって2倍から20倍にもなる可能性があります。
では、今起きていることは何でしょうか?スケーリングの「法則」が初めて限界を見せ始めているのです。ムーアの法則を含め、すべての技術的な法則は、人間が一定のペースで進化を続けたいという願望に過ぎないことを思い出すべき
Pro Plan専用コンテンツ

この記事の続きを読むには「Pro Plan」にアップグレードする必要があります。