ポッドキャスターのライアン・チャオとして ブルースカイに乗せて「プロトタイプを作成する必要があるのが『スペースがあった場合はどうなるか』という場合、デザイン プロセスは間違っています。」
早く行かなきゃ
Google が今年初めに Genie の最初のバージョンを発表したとき、 詳細な研究論文を発表しました モデルをトレーニングするために舞台裏で実行された具体的な手順と、そのモデルがどのようにインタラクティブなビデオを生成したかを概説します。 Genie 2 のプロセスを詳しく説明したそのような研究論文は出版されていないため、いくつかの重要な詳細は推測の余地があります。
これらの詳細の中で最も重要なものの 1 つはモデルの速度です。最初の Genie モデルは、1 秒あたり約 1 フレームで世界を生成しましたが、これはリアルタイムで許容できるレベルよりも桁違いに遅い速度でした。 Genie 2 について Google は、「このブログ投稿のサンプルは、何が可能かを示すために、未蒸留の基本モデルによって生成されています。出力の品質は低下しますが、蒸留されたバージョンをリアルタイムで再生できます。」とだけ述べています。
行間を読むと、Genie 2 の完全版は、派手な GIF が暗示するリアルタイム インタラクションよりもはるかに低いレベルで動作しているように思えます。モデルの希釈バージョンをリアルタイム制御に適用するには、どの程度の「品質の低下」が必要かは不明ですが、Google が提示した例が不足していることを考えると、削減は大幅であると想定する必要があります。
リアルタイムのインタラクティブな AI ビデオ生成は、決して夢物語ではありません。今年初め、AI モデル メーカー デカート そしてハードウェアメーカー エッチング済み 出版された オアシスモデル、人間が制御可能な AI 生成のビデオ クローンを披露 マインクラフト 1 秒あたり 20 フレームで実行されます。ただし、その 5 億のパラメーター モデルは、1 つの比較的単純なゲームの何百万時間もの映像でトレーニングされ、そのゲームに固有の限られた一連のアクションと環境デザインのみに焦点を当てていました。
Oasis が立ち上げられたとき、その作成者はモデルが「ドメインの一般化に苦労している」ことを完全に認め、開始シーンがいかに「現実的」であるかを示しました。 単純化する必要があった マインクラフト ブロック 良い結果を達成するために。そうした制限があっても、難しいことではありません。 映像を見つける オアシスの 恐ろしい悪夢の燃料に変貌する ほんの数分のプレイの後。