AIは「ピークデータ」をヒットしました。 Googleの研究者は解決策を見つけたと考えている。

  • OpenAIの共同創設者イリヤ・サツケヴァー氏は最近、AI業界は「データのピーク」に達していると語った。
  • DeepMind の研究者は、新しい「推論」モデルからの出力を新鮮な AI トレーニング データのソースとみなしています。
  • テストタイム コンピューティングとして知られる新しい AI 技術が 2025 年にテストされます。

OpenAI の共同創設者である Ilya Sutskever 氏は、AI 業界を恐怖に震えさせるはずだったあることを最近のカンファレンスで発表しました。

「私たちはピークデータを達成しましたが、これ以上はありません」と彼は12月の年次ニューリプスイベントでのスピーチで声を張り上げた。

インターネット上のすべての有用なデータは、すでに AI モデルのトレーニングに使用されています。事前トレーニングとして知られるこのプロセスは、ChatGPT を含む最近の生成 AI の多くの機能を生み出しました。しかし改善は遅れており、サツケヴァー氏はこの時代は「間違いなく終わるだろう」と述べた。

数兆ドルもの株式市場価値と AI への投資が、改良され続けるモデルに乗っているため、これは恐ろしい見通しです。

しかし、ほとんどのAI専門家はそれほど心配していないようだ。なぜ?

推論時の計算

このデータの壁を回避する方法があるかもしれません。これは、AI モデルが困難なタスクを長時間にわたって「考える」のに役立つ比較的新しい技術に関連しています。

テスト時または推論時コンピューティングと呼ばれるこのアプローチは、クエリを小さなタスクに分割し、それぞれをモデルが取り組む新しいプロンプトに変換します。各ステップでは新しいリクエストを実行する必要があります。これは AI の推論ステージとして知られています。

これにより、問題の各部分に取り組む一連の推論が生成されます。モデルは、各部分が正しくなり、最終的により良い最終応答が得られるまで、次の段階に進みません。

OpenAI は、推論時コンピューティングを使用する o1 と呼ばれるモデルを 9 月にリリースしました。これにすぐに Google と中国の AI 研究所 DeepSeek が続き、同様の「推論」モデルを展開しました。

「自己改善の反復ループ」

これらの新しいモデルのベンチマーク ベースのテストでは、特に数学の質問や最終的な明確な答えが得られる同様のタスクにおいて、以前のトップ AI 作物よりも優れた出力を生成することが多いことがわかりました。

ここからが興味深いことになります。これらの高品質の出力が新しいトレーニング データに使用されたらどうなるでしょうか?この大量の新しい情報は、他の AI モデルのトレーニング実行にフィードバックされて、さらに優れた結果が得られる可能性があります。

Google DeepMind 研究者 出版された研究 は 8 月にテスト時コンピューティングについて発表し、大規模な言語モデルをピークデータの壁を乗り越えて改善し続けるための潜在的な方法としてこの手法を提案しました。

「将来的には、追加のテスト時計算を適用した結果をベースの LLM に蒸留して戻すことができ、反復的な自己改善ループが可能になると考えています」と研究者らは書いている。 「この目的を達成するために、今後の作業は私たちの発見を拡張し、テスト時の計算を適用した結果をベースの LLM 自体を改善するためにどのように使用できるかを研究する必要があります。」

テスト時の研究者とのチャット

著者は、Charlie Snell、Jaehoon Lee、Kelvin Xu、Aviral Kumar です。 Xu 氏はまだ Google に在籍しており、Kumar 氏は一部の時間を DeepMind で過ごしている一方、Lee 氏は OpenAI のライバルである Anthropic に入社するために退職しました。

スネル氏は、Google DeepMind でのインターン中にこの論文を共同執筆しました。彼は現在カリフォルニア大学バークレー校に戻っているので、研究のきっかけとなったものを尋ねるために電話しました。

「事前トレーニングの拡大を妨げているいくつかの要因、特にデータの供給が有限であることが私を動機づけました」と彼は最近のインタビューで私に語った。

「AI モデルが余分な推論時間の計算を使用して出力を向上させることができれば、それがより良い合成データを生成する方法になります」と彼は付け加えた。 「これは、トレーニング データの有用な新しいソースです。これは、トレーニング前のデータのボトルネックを回避する有望な方法だと思われます。」

サティアは満足しました

最近のビデオ ポッドキャストで、Microsoft CEO のサティア ナデラ氏は、AI モデルの改善の遅れと新しい高品質のトレーニング データの欠如について質問されたとき、動揺せず、むしろ元気なように見えました。

彼は推論時間の計算を「もう 1 つのスケーリング法則」と説明しました。

「つまり、事前トレーニングがあり、その後、効果的にこのテスト時のサンプリングが行われ、その後、事前トレーニングに戻ることができるトークンが作成され、推論で実行されるさらに強力なモデルが作成されます。」と彼は説明しました。

「これはモデルの能力を高める素晴らしい方法だと思います」とナデラ氏は笑顔で付け加えた。

Sutskever 氏は、12 月初旬の Neurips 講演の中で、ピークデータ問題に対する考えられる解決策の 1 つとしてテストタイム コンピューティングについても言及しました。

テスト時コンピューティングのテスト時間

2025 年には、このアプローチが試されることになります。スネル氏は楽観的だが、これは絶対的なことではない。

「過去 3 年ほどで、AI の進歩がより明確になったように思えました」と彼は言いました。 「今、私たちは探索モードに入っています。」

未解決の質問が 1 つあります。このテスト時の計算手法はどの程度一般化できるのでしょうか?スネル氏は、数学の課題など、答えがわかっていて確認できる問題ではうまく機能すると述べた。

「しかし、推論が必要なことの多くはチェックするのが簡単ではありません。たとえば、エッセイを書くことです。これがどの程度優れているかについては、多くの場合、明確な答えがありません。」と彼は説明しました。

それでも、成功の初期の兆候はあり、スネル氏は、この種の推論 AI モデルからの出力がすでに新しいモデルのトレーニングに使用されているのではないかと疑っています。

「この合成データは、インターネット上に公開されているデータよりも優れている可能性が十分にあります」と彼は述べた。

OpenAI の o1 モデルからの出力が、スタートアップの以前の最上位モデルである GPT-4 よりも優れている場合、理論上、これらの新しい出力は将来の AI モデルのトレーニングに再利用できるとスネル氏は説明しました。

彼は理論的な例を共有しました。たとえば、o1 が特定の AI ベンチマークで 90% のスコアを取得したとすると、それらの回答を GPT-4 にフィードして、そのモデルも 90% まで上げることができます。

「大規模なプロンプトのセットがある場合は、o1 から大量のデータを取得し、大規模なトレーニング サンプルのセットを作成して、それらを基に新しいモデルを事前トレーニングすることも、GPT-4 のトレーニングを継続して改善することもできます」と Snell 氏は述べています。 。

12月下旬のTechCrunchのレポートは、DeepSeekがOpenAIのo1からの出力を使用して独自のAIモデルをトレーニングした可能性があることを示唆した。 DeepSeek V3 と呼ばれる最新の製品は、業界のベンチマークで優れたパフォーマンスを発揮します。

「彼らはおそらくo1を再現した最初の人たちだろう」とスネル氏は語った。 「OpenAIの人々にこれについてどう思うか聞いてみました。彼らは同じものに見えると言っていますが、DeepSeekがどうやってこれほど早くこれを実現したのかは知りません。」

OpenAIとDeepSeekはコメントの要請に応じなかった。