Googleの新しいAIビデオモデルは物理学をあまり取り入れていない

Google は、Veo 生成 AI を企業顧客に展開し始めたのはつい最近かもしれませんが、同社はビデオ ツールの新バージョンを初期テスターに​​提供するために時間を無駄にするつもりはありません。月曜日、Google は次のことを発表しました。 Veo 2 のプレビュー。同社によれば、Veo 2 は「映画の言語を理解する」という。実際には、モデルをプロンプトするときに、特定のジャンルの映画、映画効果、またはレンズを参照できることを意味します。

さらにGoogleは、新しいモデルは現実世界の物理学と人間の動きをよりよく理解していると述べている。動いている人間を正しくモデル化することは、すべての生成モデルが困難を抱えていることです。したがって、これらの問題点の両方に関しては、Veo 2 の方が優れているという同社の主張は注目に値します。もちろん、同社が提供したサンプルだけでは確実に知るには十分ではありません。 Veo 2 の機能の真のテストは、誰かがそれを要求したときに行われます。 体操選手のルーティンのビデオを生成する。ああ、ビデオモデルが苦労していることについて言えば、Google は Veo が余分な指などのアーティファクトを「より少ない頻度で」生成すると述べています。

Google の Imagen 3 が生成したリスのサンプル画像。

グーグル

これとは別に、Google は Imagen 3 の改良版を展開している。テキストから画像へのモデルのうち、最新バージョンではより明るく、より適切に構成された画像が生成されると同社は述べている。さらに、より多様なアート スタイルをより正確にレンダリングできます。同時に、プロンプトに忠実に従うことにも優れています。迅速な遵守は、同社が今月初めに Google Cloud の顧客に Imagen 3 を提供したときに私が強調した問題であり、少なくとも Google は自社の AI モデルが必要な領域を認識しています。

Veo 2 は段階的に展開されます。 Google Labs 米国内のユーザー。現時点では、Google はテスターが 720p で最大 8 秒の映像を生成することを制限します。コンテキストとして、Sora は最大 20 秒の 1080p 映像を生成できますが、これには月額 200 ドルの ChatGPT Pro サブスクリプションが必要です。 Imagen 3 の最新の機能強化については、100 か国以上の Google Labs ユーザーが次の方法で利用できます。 イメージFX

出典