Google の主力 AI 研究機関である Google DeepMind は、ビデオ生成ゲームで OpenAI に勝ちたいと考えています。そして、少なくともしばらくの間はそうなるかもしれません。
月曜日、DeepMind は、次世代ビデオ生成 AI であり、Google のポートフォリオ全体で増え続ける製品を強化する Veo の後継である Veo 2 を発表しました。 Veo 2 は、最大 4k (4096 x 2160 ピクセル) の解像度で 2 分以上のクリップを作成できます。
注目すべきは、これは OpenAI の Sora が達成できる解像度の 4 倍と持続時間の 6 倍以上です。
確かに、現時点では理論上の利点です。 Google の実験的なビデオ作成ツール VideoFX では、現在 Veo 2 が独占的に利用可能ですが、ビデオの長さは 720p、8 秒に制限されています。 (Sora は最大 1080p、20 秒の長さのクリップを生成できます。)
VideoFX は順番待ちリストに残っているが、Google は今週、アクセスできるユーザーの数を拡大すると述べている。
DeepMindの製品担当副社長Eli Collins氏もTechCrunchに対し、Googleは「モデルが大規模に使用できるようになったら」Vertex AI開発者プラットフォーム経由でVeo 2を利用できるようにすると語った。
「今後数か月間、ユーザーからのフィードバックに基づいて繰り返していきます」とコリンズ氏は述べました。「そして、Veo 2 の更新された機能を Google エコシステム全体の魅力的なユースケースに統合することを検討します…(W)e 期待しています来年はさらに最新情報を共有します。」
よりコントロールしやすくなった
Veo と同様に、Veo 2 はテキスト プロンプト (例: 「高速道路を走る車」) またはテキストと参照画像を指定してビデオを生成できます。
Veo 2 の新機能は何でしょうか? DeepMind によれば、このモデルはさまざまなスタイルのクリップを生成でき、物理学とカメラ制御の「理解」が向上し、より「鮮明な」映像が生成されるとのことです。
DeepMind がより鮮明にするとは、特に動きの多いシーンにおいて、クリップ内のテクスチャと画像がより鮮明になることを意味します。カメラ コントロールの改善に関しては、Veo 2 が生成するビデオ内で仮想「カメラ」をより正確に配置し、そのカメラを移動して物体や人物をさまざまな角度からキャプチャできるようになりました。
DeepMind はまた、Veo 2 は動き、流体力学 (マグカップに注がれるコーヒーなど)、光の特性 (影や反射など) をより現実的にモデル化できると主張しています。これには、人間の「微妙な」表現だけでなく、さまざまなレンズや映画効果も含まれる、とディープマインド氏は言う。
DeepMind は先週、Veo 2 から厳選したいくつかのサンプルを TechCrunch と共有しました。 AI によって生成されたビデオとしては、非常に優れている、いや、非常に優れていると言えます。 Veo 2 は、屈折やメープル シロップのような扱いにくい液体をよく理解しており、ピクサー スタイルのアニメーションをエミュレートするコツを備えているようです。
しかし、このモデルでは余分な指や「予期せぬ物体」などの要素が幻覚を起こす可能性が低いという DeepMind の主張にもかかわらず、Veo 2 は不気味の谷を完全にクリアすることはできません。
この漫画の犬のような生き物の生気のない目に注目してください。
そして、この映像の奇妙に滑りやすい道路、さらに背景の歩行者が互いに溶け込み、物理的に不可能なファサードを持つ建物が見えます。
コリンズ氏は、やるべきことはあると認めた。
「一貫性と一貫性は成長の余地がある分野です」と彼は言いました。 「Veo は、数分間であれば一貫してプロンプトに従うことができますが、長期間にわたって複雑なプロンプトに従うことはできません。同様に、キャラクターの一貫性も課題となる可能性があります。複雑なディテール、高速で複雑なモーションを生成し、リアリズムの限界を押し広げ続けるという点にも改善の余地があります。」
DeepMind はアーティストやプロデューサーと協力してビデオ生成モデルとツールを改良し続けているとコリンズ氏は付け加えました。
「私たちは、Veo の開発を開始して以来、ドナルド グローバー、ザ ウィークエンド、d4vd などのクリエイターと協力し始め、彼らのクリエイティブ プロセスと、テクノロジーが彼らのビジョンを実現するのにどのように役立つかを実際に理解しました」とコリンズ氏は述べています。 「Veo 1 でのクリエイターとの取り組みが Veo 2 の開発に影響を与えたので、信頼できるテスターやクリエイターと協力してこの新しいモデルに関するフィードバックを得るのを楽しみにしています。」
安全性とトレーニング
Veo 2 は多くのビデオでトレーニングされました。これが一般に、AI モデルの仕組みです。何らかの形式のデータの例が次々に提供されると、モデルはデータ内のパターンを認識して、新しいデータを生成できるようになります。
DeepMind は、Veo 2 をトレーニングするためにビデオをどこでスクレイピングしたかを正確に述べていませんが、YouTube がソースの 1 つである可能性があります。 GoogleはYouTubeを所有しており、DeepMindは以前TechCrunchに対し、VeoのようなGoogleモデルは一部のYouTubeコンテンツでトレーニングされる「可能性がある」と語った。
「Veo は、高品質のビデオと説明の組み合わせについてトレーニングを受けています」とコリンズ氏は言います。 「ビデオと説明のペアは、ビデオと、そのビデオ内で何が起こるかについての関連する説明です。」
DeepMind は Google を通じて、ウェブマスターがラボのボットがウェブサイトからトレーニング データを抽出するのをブロックできるツールをホストしていますが、クリエイターが既存のトレーニング セットから作品を削除できるメカニズムは提供していません。研究室とその親会社は、公開データを使用したモデルのトレーニングは有効であると主張しています。 フェアユースこれは、DeepMind がデータ所有者に許可を求める義務はないと考えていることを意味します。
すべてのクリエイティブが同意するわけではありません — 特に次の点を考慮すると 研究 今後数年間で、何万もの映画やテレビの仕事が AI によって破壊される可能性があると推定されています。人気のAIアートアプリMidjourneyを運営する同名の新興企業を含む複数のAI企業が、同意なしにコンテンツをトレーニングすることでアーティストの権利を侵害したとして訴訟の対象となっている。
「私たちはクリエイターやパートナーと協力して共通の目標を達成することに全力で取り組んでいます」とコリンズ氏は語った。 「私たちはクリエイティブ コミュニティや幅広い業界の人々と協力し続け、VideoFX の使用者を含む洞察を収集し、フィードバックに耳を傾けます。」
今日の生成モデルはトレーニング時の動作方法により、モデルがトレーニング データのミラー コピーを生成するときの逆流などの特定のリスクを伴います。 DeepMind のソリューションは、暴力的、生々しい、露骨なコンテンツなどを含むプロンプトレベルのフィルターです。
Googleの 補償ポリシーコリンズ氏によると、自社製品の使用に起因する著作権侵害の申し立てに対して特定の顧客を防御するものだが、Veo 2が一般提供されるまでは適用されないという。
ディープフェイクのリスクを軽減するために、DeepMind は独自の透かし技術である SynthID を使用して、Veo 2 が生成するフレームに目に見えないマーカーを埋め込んでいると述べています。ただし、すべての透かし技術と同様に、SynthID 絶対確実ではありません。
Imagen のアップグレード
Veo 2 に加えて、Google DeepMind は今朝、商用画像生成モデルである Imagen 3 へのアップグレードを発表しました。
Imagen 3 の新バージョンは、本日より Google の画像生成ツールである ImageFX のユーザーに公開されます。 DeepMindによると、フォトリアリズム、印象派、アニメなどのスタイルで「より明るく、より適切に構成された」画像や写真を作成できるという。
「今回の(Imagen 3への)アップグレードでは、プロンプトにより忠実に従い、より豊かな詳細とテクスチャをレンダリングします」とDeepMindはTechCrunchに提供されたブログ投稿で書いている。
モデルと同時に展開されるのは、ImageFX の UI アップデートです。ユーザーがプロンプトを入力すると、そのプロンプト内のキーワードが「チップレット」になり、関連する単語が提案されるドロップダウン メニューが表示されます。ユーザーはチップを使用して、書き込んだ内容を反復したり、プロンプトの下にある自動生成された記述子の行から選択したりできます。