Claude 3.5 Opusも、GPT5もリリースされない中、LLMのスケーリング法則が頭打ちになっているという指摘が最近されている。

OpenAIでモデルの開発を主導したイリヤ・サツケバーも、事前学習のモデルに関しては頭打ちになっていると語ったとされ、推論など次のスケールする場所を探していると述べた。

イリヤ・サッツケバー氏は最近、ロイター通信に対し、事前学習(言語パターンと構造を理解するためにラベル付けされていない膨大なデータを使用してAIモデルを訓練する段階)の規模を拡大した結果が頭打ちになっていると語った。 1

一方で、AIの評価をするための仕組み、知性とは何かという定義や評価方法もまた、問われている。LLMは入手できるすべてのデジタルデータを学習していると思われるので、ある程度の評価へのオーバーフィッティングは避けられない。

Anthoropicの副社長のGerstenhabeが語ったように、今までの定量的な評価目標から定性的な実用化に進んでいるだけかもしれない。

ある意味では先細りしているように見えるかもしれないが、それは当社が全く新しい機能を実現しているからであり、ベンチマークや古いタスクを実行する能力は飽和状態にある 2

また、OpenAIのo1のように、事前学習から推論時に「考える時間を与える」ことで新たなスケーリングを模索する方法も生まれている。一つの巨大モデルではなく、複数のモデルや手法を使って総合的にAIの性能を上げる段階なのかもしれない。

しかし、このような「検索」方式は過去のAIの冬の失敗の経験から、良い兆候ではないと神経科学者・作家のErik Hoelは指摘している。

「検索」は人間の思考とは異なる
膨大な可能性を検索することは、人間のような創造的かつ統一的な思考と根本的に異なる。

ニューラルネットワークの本質的な進化ではない
GPT-4.5レベル程度の知能を持つAIが提案と評価を行う仕組みであり、これ以上の基礎的な知能の向上を示していない。

コストとリソースの問題
「検索」には多大な時間とリソースが必要である。たとえば、「テスト時コンピュート」や「テスト時トレーニング」といった新しい手法は、モデルが複数の可能性をリアルタイムで生成・評価するための技術であるが、これも「検索」の洗練版に過ぎない。これらの手法には莫大なコストがかかり、限られた範囲の性能向上しか得られない。

私たちは、おそらく、なぜ人類文明のデータの総量がディープラーニング技術に供給されたときに「賢いが、それほど賢くない」レベルに達して停滞するのかという問いについて深く考えるべきではないだろう。あまりにもはっきりと自分たちを鏡で見つめることになってしまうかもしれない。3

人類の叡智を学習したはずのAIがそんなに賢くないのは、鏡を見るようなものだという皮肉な示唆もあるが、Tyler Cowenはそもそも知能は明確に比較できるものではなく、そもそもその知能が解決すべき問題の定義や発見が難しいのではないかという指摘をしている。

知識は均質的な指標で測れるものではなく、線形スケールで表現することもできない。システムの単一の要素を取り出して「賢さ」を評価することは意味がなく、知識は多くの場合「凹凸のある」ものである。このため、「ある存在が以前より3倍賢くなった」といった主張には疑問を感じる。

AI型の穴を見つけるのは私たち次第
重要なのは「AI型の穴」を組織や個人の中に見つけ、それを埋める方法を探すことである。そのスピードと可能性は私たち自身にかかっている。4

結局、自分の問題は自分で発見し、言語化し、定義して頭を捻って解決策を試行錯誤して考えるしかないようだ。その効率化や補助をAIはできるだろうが、何も考えずに自分の問題をAIが勝手に解決してくれるような夢の世界にはしばらくなりそうにない。

Footnotes

  1. OpenAI and rivals seek new path to smarter AI as current methods hit limitations

  2. AI isn’t hitting a wall; it’s just getting too smart for benchmarks, says Anthropic

  3. AI progress has plateaued below GPT-5 level

  4. Austrian economics and AI scaling