ワールド モデル (シミュレーション環境をリアルタイムで生成できる AI アルゴリズム) は、機械学習の最も印象的なアプリケーションの 1 つです。昨年、この分野では多くの動きがあり、そのために Google DeepMind が発表しました。 水曜日のジーニー2。以前のモデルは 2D 世界の生成に限定されていましたが、新しいモデルでは 3D 世界を作成し、それを大幅に長く維持できるようになりました。
Genie 2 はゲーム エンジンではありません。代わりに、これは、ソフトウェアがシミュレートしている世界をプレイヤー (人間または別の AI エージェント) が移動するときに画像を生成する拡散モデルです。 Genie 2 はフレームを生成する際に環境に関するアイデアを推測し、水、煙、物理効果をモデル化する機能を提供します。ただし、それらの相互作用の一部は非常にゲーム的になる場合があります。このモデルは、三人称視点からのシーンのレンダリングに限定されず、一人称視点や等角投影視点も処理できます。開始する必要があるのは、Google 独自の Imagen 3 モデルまたは現実世界の画像のいずれかによって提供される 1 つの画像プロンプトだけです。
Genie 2 のご紹介: 無限に多様なプレイ可能な 3D 世界をすべて 1 つの画像から作成できる AI モデル。 🖼️
このような大規模な基盤世界モデルにより、将来のエージェントを無数の仮想環境でトレーニングし、評価できるようになる可能性があります。 →… pic.twitter.com/qHCT6jqb1W
— Google ディープマインド (@GoogleDeepMind) 2024 年 12 月 4 日
特に、Genie 2 は、シミュレートされたシーンの一部がプレイヤーの視野を離れた後でも記憶しており、それらの要素が再び表示されると正確に再構築できます。これは、次のような他の世界モデルとは対照的です。 オアシス、少なくとも Decart が 10 月に公開したバージョンでは、レイアウトを覚えるのに苦労しました。 マインクラフト リアルタイムで生成されていたレベル。
ただし、この点に関して Genie 2 でできることには制限さえあります。 DeepMind によれば、このモデルは最大 60 秒間「一貫した」世界を生成でき、水曜日に同社が共有した例の大部分は大幅に短い時間で実行できるという。この場合、ほとんどのビデオの長さは約 10 ~ 20 秒です。さらに、Genie 2 が一貫した世界の錯覚を維持するために必要な時間が長くなるほど、アーティファクトが導入され、画質が低下します。
DeepMindは、「大規模なビデオデータセット」に依存していると述べた以外、Genie 2をどのようにトレーニングしたかについては詳しく述べなかった。 DeepMind がすぐに Genie 2 を一般公開するとも期待しないでください。同社は今のところ、このモデルを独自の SIMA アルゴリズムを含む他の AI エージェントのトレーニングと評価のためのツール、そしてアーティストやデザイナーがプロトタイプを作成してアイデアを迅速に試すために使用できるものと主に考えています。将来的には、Genie 2 のような世界モデルが汎用人工知能への道において重要な役割を果たす可能性が高いと DeepMind は示唆しています。
「より一般的な身体エージェントのトレーニングは、十分に豊富で多様なトレーニング環境が利用できることが従来のボトルネックとなっていました」とディープマインド氏は述べた。 「私たちが示しているように、Genie 2 により、新しい世界の無限のカリキュラムで将来のエージェントが訓練され、評価されることが可能になります。」