Google は、さらに別の AI ツールを山に追加します。 泡立てる は、既存の画像をプロンプトとして使用できる Google Labs 画像ジェネレーターです。ただし、その出力は、スターター イメージを新しい詳細で再作成するのではなく、スターター イメージの「本質」をキャプチャするだけです。したがって、ソース画像を編集するよりも、ブレインストーミングや迅速な視覚化に適しています。
同社はWhiskを「新しいタイプのクリエイティブツール」と表現している。入力画面は、スタイルと件名を入力する必要最低限のインターフェイスから始まります。このシンプルな入門インターフェイスでは、ステッカー、エナメルピン、ぬいぐるみの 3 つの事前定義されたスタイルから選択するだけです。 Google は、実験ツールが現在の形式で最も理想的な種類の大まかな出力に許可されている 3 つを見つけたのではないかと思います。
上の画像でわかるように、ウィルフォード・ブリムリーのぬいぐるみのしっかりした画像が生成されました。 (Googleの規約では有名人の写真は禁止されているが、ウィルフォードさんは警備員に警告することなくクエーカー教徒のオーツを引き連れて門をすり抜けた。)
Whisk には、より高度なエディターも含まれています (メイン画面から「最初から開始」をクリックすると表示されます)。このモードでは、主題、シーン、スタイルの 3 つのカテゴリでテキストまたはソース画像を使用できます。最後の仕上げとしてテキストを追加するための入力バーもあります。ただし、現在の形式では、高度なコントロールは私のクエリと似たような結果を生成しませんでした。
たとえば、オンラインで見つけたセイウチのぬいぐるみ画像のスタイルでライトボックス シーンに亡きブリムリー氏を生成するという私の試みをチェックしてください。
ウィスクは、ライトボックスのフレーム内でオートミールを食べている、漠然とウィルフォード・ブリムリー風の俳優のように見えるものを吐き出します。私の知る限り、あの男はぬいぐるみではありません。したがって、Google がこのツールの使用を、制作可能なコンテンツではなく「迅速な視覚的探索」に推奨している理由は明らかです。
Google は、Whisk がソース画像の「いくつかの主要な特徴」のみを抽出することを認めています。 「たとえば、生成された被写体の身長、体重、髪型、肌の色が異なる可能性があります」と同社は警告している。
その理由を理解するには、Whisk が内部でどのように機能するかについての Google の説明を参照する必要があります。 Gemini 言語モデルを使用して、アップロードするソース画像の詳細なキャプションを書き込みます。次に、その説明を Imagen 3 画像ジェネレーターに送ります。したがって、結果は次の画像に基づいています あなたのイメージについての双子座の言葉 — ソース画像そのものではありません。
Whisk は、少なくとも現時点では米国でのみ入手可能です。プロジェクトで試すことができます Google Labs サイト。