Googleの実験部門であるGoogle Labsは、 Whisk と呼ばれる新しい画像ジェネレーターをテストしています。このツールを使用すると、テキストの代わりに画像を使用してプロンプトを表示し、主題、シーン、スタイルを変更して写真をリミックスできるようになります。
Whisk は、Google の画像生成モデル Imagen 3 を使用して、被写体用、シーン用、スタイル用の 3 つの画像を組み合わせます。たとえば、被写体として自分の写真を選択し、シーンとして未来の風景を選択し、最終的な外観としてアニメ スタイルを選択できます。
このモデルは、画像の詳細なキャプションを自動的に生成します。これは、Imagen 3 が写真のリミックスを作成する際のガイドとして使用されます。また、テキスト プロンプトを入力して、「対象者は空飛ぶバイクに乗っています」などの詳細な説明を含め、目的の結果をさらに定義することもできます。
Whisk は各画像のいくつかの主要な特徴のみに焦点を当てているため、結果が必ずしも期待に沿うものではない可能性があると同社は説明しています。たとえば、生成された被写体は、身長、体重、髪型、肌の色が異なる可能性があります。 Google によれば、基になるプロンプトはいつでも表示および編集できるとのことです。
この実験は現在、米国に拠点を置くユーザーのみが利用できます。 labs.google/whisk。