AI の「世界モデル」とは何ですか? なぜ重要なのでしょうか?

ワールド モデル (ワールド シミュレーターとも呼ばれます) は、AI の次の目玉として一部で宣伝されています。

AI のパイオニア、フェイフェイ・リー氏の World Labs は「大規模な世界モデル」を構築するために 2 億 3,000 万ドルを調達し、DeepMind は OpenAI のビデオ ジェネレーターの作成者の 1 人である Sora を「世界シミュレータ」の開発に雇いました。 (Sora は月曜日にリリースされました。初期の感想をいくつか紹介します。)

でも一体何だ これらのこと?

世界モデルは、人間が自然に発達させる世界の精神モデルからインスピレーションを得ています。私たちの脳は、感覚から抽象的な表現を受け取り、それを周囲の世界のより具体的な理解へと形作り、AI がこの言葉を採用するずっと前に、私たちが「モデル」と呼ぶものを生成します。これらのモデルに基づいて私たちの脳が行う予測は、私たちが世界をどのように認識するかに影響を与えます。

AI 研究者の David Ha 氏と Jürgen Schmidhuber 氏は、野球の打者の例を挙げています。打者はバットの振り方を決定するのに数ミリ秒かかりますが、これは視覚信号が脳に到達するのにかかる時間よりも短いです。ハ氏とシュミットフーバー氏によると、彼らが時速160マイルの速球を打てるのは、ボールがどこに飛ぶかを本能的に予測できるからだという。

「プロのプレーヤーにとって、これはすべて無意識のうちに起こっていることです」と研究者二人は書いている。 「彼らの筋肉は、内部モデルの予測に従って、適切なタイミングと場所で反射的にバットを振ります。彼らは、起こり得る将来のシナリオを意識的に展開して計画を立てる必要がなく、将来の予測に基づいて迅速に行動することができます。」

世界モデルのこれらの潜在意識の推論の側面こそが、人間レベルの知性の前提条件であると信じている人もいます。

世界をモデル化する

この概念は何十年も前から存在していましたが、ワールド モデルは、生成ビデオの分野での応用が有望であることもあり、最近人気が高まっています。

すべてではないにしても、ほとんどの AI 生成ビデオは不気味の谷の領域に逸れています。十分に長く見てください。 奇妙な 手足がねじれて融合するようなことが起こります。

長年のビデオに基づいてトレーニングされた生成モデルは、バスケットボールが跳ねることを正確に予測するかもしれませんが、言語モデルが単語やフレーズの背後にある概念を実際には理解していないのと同じように、実際にはその理由はわかりません。しかし、バスケットボールがそのように跳ねる理由を基本的にさえ理解している世界モデルは、その動きを示すのに優れているでしょう。

この種の洞察を可能にするために、世界モデルは、世界がどのように機能するかについての内部表現を作成し、行動の結果について推論する能力を作成することを目的として、写真、音声、ビデオ、テキストなどのさまざまなデータでトレーニングされます。 。

AI スタートアップ Runway の Gen-3 ビデオ生成モデルのサンプル。 画像クレジット:滑走路

「視聴者は、自分が見ている世界が自分の現実と同じように振る舞うことを期待している」と、スナップ社の元AI責任者であり、ビデオの生成モデルを構築しているヒッグスフィールド社の最高経営責任者(CEO)であるアレックス・マシュラボフ氏は語る。 「金床の重みで羽根が落ちたり、ボウリングのボールが数百フィートの空中に飛び上がったりすると、衝撃を与え、見る人をその瞬間から奪い去ります。強力な世界モデルがあれば、作成者が各オブジェクトがどのように動くと予想されるかを定義するのではなく(これは退屈で面倒で時間の使い方が下手ですが)、モデルはこれを理解するでしょう。」

しかし、より優れたビデオ生成は、世界のモデルにとって氷山の一角にすぎません。 Meta のチーフ AI サイエンティスト、Yann LeCun を含む研究者らは、このモデルはいつかデジタル領域と物理領域の両方で高度な予測と計画に使用される可能性があると述べています。

今年初めの講演でルカン氏は、世界モデルが推論を通じて望ましい目標を達成するのにどのように役立つかを説明した。 「世界」の基本表現 (汚い部屋のビデオなど) を持つモデルは、目的 (クリーン ルーム) が与えられると、その目的を達成するための一連のアクション (掃除機を配置して部屋を掃除したり掃除したりする) を思いつくことができます。皿を洗う、ゴミ箱を空にする)それが観察されたパターンだからではなく、汚れた状態からきれいな状態に移行する方法をより深いレベルで知っているからです。

「私たちは世界を理解する機械を必要としています。 (機械は)物事を記憶でき、直感があり、常識があり、人間と同じレベルで推論し、計画を立てることができるものです」とルカン氏は語った。 「最も熱心な人々から聞いたことがあるかもしれませんが、現在の AI システムにはこれらの機能はまったくありません。」

LeCun 氏は、彼が思い描く世界モデルまでには少なくとも 10 年はかかると見積もっていますが、今日の世界モデルは初等物理シミュレータとしての可能性を示しています。

OpenAI Minecraft の姉妹
Minecraft でプレイヤーを制御し、世界をレンダリングするソラ。 画像クレジット:OpenAI

OpenAIはブログで、同社が世界モデルと考えているSoraは、画家がキャンバスに筆跡を残すような動作をシミュレートできると指摘している。 Sora のようなモデルや Sora 自体も、効果的に次のことを行うことができます。 シミュレートする ビデオ ゲーム。たとえば、Sora は Minecraft のような UI とゲーム世界をレンダリングできます。

将来の世界モデルは、ゲームや仮想写真撮影などのためにオンデマンドで 3D 世界を生成できるようになるかもしれない、と World Labs の共同創設者ジャスティン ジョンソン氏は語った。 エピソード a16zポッドキャストの。

「私たちはすでに仮想のインタラクティブな世界を作成する能力を持っていますが、それには何億ドル、何億ドルと膨大な開発時間がかかります」とジョンソン氏は語った。 「(ワールド モデルは) 単に画像やクリップを取得するだけでなく、完全にシミュレートされた、活気に満ちたインタラクティブな 3D 世界を実現します。」

ハードルが高い

このコンセプトは魅力的ですが、多くの技術的な課題が立ちはだかります。

ワールド モデルのトレーニングと実行には、現在生成モデルで使用されている量と比較しても、膨大な計算能力が必要です。最新の言語モデルの一部は最新のスマートフォンで実行できますが、Sora (おそらく初期の世界モデル) は、特に使用が一般的になった場合、トレーニングと実行に数千の GPU を必要とします。

すべての AI モデルと同様、ワールド モデルも幻覚を起こし、トレーニング データにバイアスを内在化させます。ヨーロッパの都市の晴天のビデオを主にトレーニングした世界モデルは、たとえば、雪の降る韓国の都市を理解したり描写したりするのに苦労するか、単に間違って表現する可能性があります。

マシュラボフ氏は、トレーニングデータが全体的に不足しているため、これらの問題がさらに悪化する恐れがあると述べています。

「私たちは、モデルが特定のタイプや人種の世代に非常に限定されているのを見てきました」と彼は言いました。 「世界モデルのトレーニング データは、さまざまなシナリオをカバーできる広範なものでなければなりませんが、AI がそれらのシナリオの微妙な違いを深く理解できる範囲に特化したものでなければなりません。」

最近では 役職AI新興企業ランウェイのCEO、クリストバル・バレンズエラ氏は、データとエンジニアリングの問題により、今日のモデルは世界の住民(人間や動物など)の行動を正確に捉えることができないと述べている。同氏は、「モデルは環境の一貫したマップを生成する必要がある。また、それらの環境内を移動し対話する能力も必要になるだろう」と述べた。

OpenAI Sora
Sora が作成したビデオ。 画像クレジット:OpenAI

しかし、すべての主要なハードルを克服できれば、世界モデルは AI と現実世界を「より堅牢に」橋渡しでき、仮想世界の生成だけでなくロボット工学や AI の意思決定にもブレークスルーがもたらされるとマシュラボフ氏は考えています。

また、より有能なロボットを生み出す可能性もあります。

今日のロボットは周囲の世界 (または自分の体) を認識していないため、できることは限られています。マシュラボフ氏は、世界モデルは彼らにその認識を、少なくともある程度は与えることができるだろうと語った。

「高度な世界モデルがあれば、AI は自分がどのようなシナリオに置かれているかについて個人的な理解を深め、考えられる解決策を推論し始める可能性があります。」と彼は言いました。

TechCrunch には AI に焦点を当てたニュースレターがあります。 ここから登録してください 毎週水曜日に受信箱に届きます。

出典