Tiktokの所有者Bytedanceは、Omnihuman-1を発表しました。これは、話をしたり、ジェスチャーをしたり、歌を歌ったり、楽器を演奏したり、楽器を演奏したりする人々のリアルなビデオを生成できるAIシステムです。
「Omnihumanは既存の方法を大幅に上回り、弱い信号入力、特にオーディオに基づいて非常に現実的な人間のビデオを生成します」とツールに関する研究論文を読んでいます。 日曜日に公開 オンラインでオープンアクセスアーカイブarxiv。 「ポートレート、半身、または全身の画像であろうと、あらゆるアスペクト比の画像入力をサポートし、さまざまなシナリオでよりリアルで高品質の結果を提供します。」
に Omnihuman-1プロジェクトページ、研究者は、ツールの機能を紹介するサンプルビデオを共有しています。例は、複数の角度、アニメーション化されたキャラクター、動物、歴史的な人物から見られた手と体の動きを示しています。
鮮明な白黒のビデオでは、アルバート・アインシュタインは黒板の前で話し、手のジェスチャーと微妙な表情で言葉を断ち切ります。それは空になるだろう」と彼は言う。 「私たちの人生は感情なしでどのようなものになりますか?彼らは値が空になるでしょう。」
有名な理論物理学者が大学の講義を提供するのを見るために私たちが時間をさかのぼったかのように、映像だけが今日撮影されたように見えます。
「彼らはとても印象的です」 フレディ・トラン・ナガー、サンプルビデオを見た後、インタビューで、南カリフォルニア大学のコミュニケーションとジャーナリズムのためのアネンバーグ学校の臨床准教授であると述べました。 「ハンフリー・ボガートを復活させて映画に彼をキャストすることを考えていたなら、それがどのように見えるかはわかりません。しかし、小さな画面で、特に電話では、これらは印象的です。」
このツールは、混雑した競争の激しいレースに真っ直ぐに、ティクトクを配置し、AIが生成された人間の最高の、最も現実的な外観の映像を作成します。これらのデジタルフィギュアはどこにでも飛び出しています 仮想インフルエンサー 製品を宣伝する人、市民が社会サービスをナビゲートするのを支援する政府職員は、有名人の偽物版 ファンと楽しませてやり取りすることができます – または懸念して、に表示されます 偽の政治的支持。
ナガーは、オムフマンが教師と学生の両方が教育環境で使用するなどのシステムを想像できると言います。「マリリン・モンローに統計を教えてほしい」と言います。 OmnihumanとTiktokとのつながりのために、彼はそれが最終的にそれが燃え尽きたコンテンツクリエイターによって使用されることを想像することができました。
または、彼は言った、「ティクトクは「あなたは何を知っている?これで、自分でビデオを作成することができます。誰が人間を必要としていますか?」
サマンサ・G・ウルフ – NYUのSteinhardt Culture、Education and Human Development School of PitchFWDの創業者であるEmerging-Technologyマーケティングコンサルティングの創設者も、Omnihumanのようなツールの約束と潜在的な危険の両方を見ています。
「ただの写真から何かを作成し、それが本当に話しているように見えるようにすることは、技術的な観点からは魅力的ですが、潜在的な否定的な結果をもたらす可能性があります」と彼女はインタビューで述べました。 「正確ではないことを言っているビジネスリーダーや政治リーダーのふりをするバージョンは、ビジネスに大きな影響を与える可能性があります。
AIに生成されたビデオがより洗練されるにつれて、リスクも増加するとWolfe氏は述べています。 「それがますます現実のように見え始めたとき、実際にそれをしている人間のように、人々がそれを信じる可能性は非常に大きくなるでしょう」と彼女は言いました。
バイテダンスチームは、18,700時間以上の人間のビデオデータでオムニフマンを訓練し、テキスト、オーディオ、物理的なポーズなどの複数のタイプの入力を組み合わせていましたが、バイテダンスはトレーニングデータの詳細のコメントのリクエストにすぐに応答しませんでした。
Omnihumanは、1枚の写真からビデオを生成する最初のAIツールではありませんが、Nagerの目に際立っているのは、その背後にあるチームがアクセスできるトレーニングデータの量です。 「Tiktokのビデオを作成した場合、彼は、「仮想人間の作成に使用されるデータベースに参加する可能性が高いです。」