AI アートがテキストから 2D 画像、そして生成された 3D ビデオに進化するまでに、わずか数年かかりました。現在、Google の Genie 2 では次のステップに進み、すべて単純なテキスト プロンプトからその場で構築されるプレイ可能な 3D ゲームの世界を生成できます。
Google の Genie 2 は、AI を使用して新しいインタラクティブ環境をその場で構築するジェネレーティブ インタラクティブ環境の進化版です。 Googleが2月にリリースしたGenie 1は2D環境を構築できる。さて、Google が本日発表した Genie 2 は、これを 3D 空間に取り入れます。
Google は Genie 2 を「ワールド モデル」と呼んでいます。これは、アニメーション、物理学、オブジェクトの相互作用を使用して仮想世界をシミュレートできることを意味します。これは 2 段階のプロセスです。Genie 2 では世界を推定するためのプロンプト イメージが必要ですが、そのイメージ自体は通常のテキスト プロンプトによって生成できます。サイバーパンク西部劇をお望みですか? Genie 2 が作成します。セーリングシミュレーション?それもね。開始するには、参照またはプロンプトが必要なだけです。
グーグル
Google の場合、Imagen 3 によって生成された画像と、アーティストが手書きしたコンセプト アートが使用されました。ワールド内では、プレイヤー (AI または人間) が環境と対話できます。 Google のデモでは、矢印キーを代替手段とした従来の WASD セットアップが示されていました。
ただし、問題は一貫性です。何らかの理由で、モデルは短時間 (通常は約 20 秒程度) 後に一貫性を失います。 (Google が作成した「最長の」モデルの長さは 1 分でした。)
グーグル
その理由の 1 つは、モデルが「反事実」、つまりプレイヤーが一定の開始点 (たとえば、道路の分岐点で左折または右折) から選択できるさまざまな道や行動を生成できるためであると考えられます。モデルでは、「長い地平線」、つまりプレイヤーがシーンから離れて、再びシーンに向かうときに何が起こるかを考慮する必要があります。
グーグル
Googleによると、Genie 2は等角投影ビュー、三人称運転ビデオ、一人称視点など、さまざまな視点に対応できるという。水の影響と環境との複雑な相互作用が考慮されます。あるデモンストレーションでは、プレイヤーが風船を切ることができ、風船が割れました。煙、重力、反射はすべてモデル化されているが、Googleはモデルがどの程度または解像度でレンダリングされるか、フレームごとに計算されるポリゴンの数については明らかにしていない。
Genie 2 環境は人間だけのものではありません。 AI「プレイヤー」は、NPC またはプレイヤー キャラクターとしてモデル化することもできます。 Google は、AI にテキスト プロンプトで特定のドアを通過するように指示する方法と、AI がコマンドを認識し、レンダリングされた環境でその意味を理解して続行する方法を披露しました。
グーグル
Googleは、Genie 2に必要なコンピューティングリソースや、一般公開されるかどうか、さらには商用化する予定があるかどうかについても明らかにしなかった。しかし、AI が生成した対話を通じて AI が徐々にゲームに浸透しつつあるため、AI によってシミュレートされたゲームも最終的には現実のものになる可能性があるようです。ただ、今すぐではありません。