Googleの新しいAIツールWhiskは画像をプロンプトとして使用

から

12月 16, 2024

Google は、さらに別の AI ツールを山に追加します。泡立てるは、既存の画像をプロンプトとして使用できる Google Labs 画像ジェネレーターです。ただし、その出力は、スターターイメージを新しい詳細で再作成するのではなく、スターターイメージの「本質」をキャプチャするだけです。したがって、ソース画像を編集するよりも、ブレインストーミングや迅速な視覚化に適しています。

同社はWhiskを「新しいタイプのクリエイティブツール」と表現している。入力画面は、スタイルと件名を入力する必要最低限のインターフェイスから始まります。このシンプルな入門インターフェイスでは、ステッカー、エナメルピン、ぬいぐるみの 3 つの事前定義されたスタイルから選択するだけです。 Google は、実験ツールが現在の形式で最も理想的な種類の大まかな出力に許可されている 3 つを見つけたのではないかと思います。

上の画像でわかるように、ウィルフォード・ブリムリーのぬいぐるみのしっかりした画像が生成されました。（Googleの規約では有名人の写真は禁止されているが、ウィルフォードさんは警備員に警告することなくクエーカー教徒のオーツを引き連れて門をすり抜けた。）

Whisk には、より高度なエディターも含まれています (メイン画面から「最初から開始」をクリックすると表示されます)。このモードでは、主題、シーン、スタイルの 3 つのカテゴリでテキストまたはソース画像を使用できます。最後の仕上げとしてテキストを追加するための入力バーもあります。ただし、現在の形式では、高度なコントロールは私のクエリと似たような結果を生成しませんでした。

たとえば、オンラインで見つけたセイウチのぬいぐるみ画像のスタイルでライトボックスシーンに亡きブリムリー氏を生成するという私の試みをチェックしてください。

ウィルフォードブリムリーに少し似た男性の画像を生成する AI 生成ツールのスクリーンショット。 — Google / Engadget 用の Will Shanklin によるスクリーンショット

ウィスクは、ライトボックスのフレーム内でオートミールを食べている、漠然とウィルフォード・ブリムリー風の俳優のように見えるものを吐き出します。私の知る限り、あの男はぬいぐるみではありません。したがって、Google がこのツールの使用を、制作可能なコンテンツではなく「迅速な視覚的探索」に推奨している理由は明らかです。

Google は、Whisk がソース画像の「いくつかの主要な特徴」のみを抽出することを認めています。「たとえば、生成された被写体の身長、体重、髪型、肌の色が異なる可能性があります」と同社は警告している。

その理由を理解するには、Whisk が内部でどのように機能するかについての Google の説明を参照する必要があります。 Gemini 言語モデルを使用して、アップロードするソース画像の詳細なキャプションを書き込みます。次に、その説明を Imagen 3 画像ジェネレーターに送ります。したがって、結果は次の画像に基づいています あなたのイメージについての双子座の言葉 — ソース画像そのものではありません。

Whisk は、少なくとも現時点では米国でのみ入手可能です。プロジェクトで試すことができます Google Labs サイト。

出典

Googleの新しいAIツールWhiskは画像をプロンプトとして使用

最新ニュース

トランプ氏はバイデン氏のリモート勤務協定に反対するだろう。組合は反撃を誓う

ネタバレ – 来週の女子インターコンチネンタルタイトルトリプルスレットマッチで勝つのは誰ですか?

『ファミリー・ガイ』の脚本家がブライアン＆ステューウィーの銀行金庫エピソードを作成した理由

WWE Monday Night Raw (2024 年 12 月) レスリングニュース –...

大企業とかつての敵対者が歩調を合わせる中、トランプ大統領は元気

ヤン・テンボ：「スパイ」と機密事項について話し合わなかったというアンドリュー王子の主張は「ばかげている」

カテゴリ