AI 生成の画像を作成するために適切なプロンプトと説明を作成するのは難しい場合があります。多くの場合、結果として得られる画像は的を外しており、正しい結果が得られるまでプロンプトを繰り返し調整する必要があります。今回、Google の新しいツールは、他の画像に基づいて画像を作成できるようにすることで、プロセスを簡素化することを目的としています。
また: 最高の AI 画像ジェネレーター
最初に米国で利用可能になった Whisk は、Google アカウントを持つ誰でも自由にアクセスできる最新の Google Labs 実験です。 Google の Gemini AI を搭載しており、他の画像から画像を作成するいくつかの方法を提供します。
Whisk を使用して画像を作成する方法
始めるには、にサインインしてください ウィスクのホームページ Google アカウントで。イメージを生成するための 3 つのテンプレートから 1 つを選択します。ステッカーを選択すると、メッセージング アプリにあるようなフラットな画像が作成されます。エナメルピンは画像にもう少し奥行きを与え、ぬいぐるみは立体的な画像になります。
デフォルトでは、Whisk は選択したテンプレートに基づいてスタイルの画像を自動的に選択します。次に、被写体に使用したい画像を選択します。ページで提供されている画像の 1 つを選択するか、独自の画像をアップロードすることができます。 Gemini は画像のスタイルと主題を分析し、それらを組み合わせて新しい画像を生成します。結果が気に入らない場合は、被写体の画像を変更して、別の結果を生成できます。
また: 9 つの AI コンテンツ検出器をテストしました – そして、これら 2 つは毎回正しく AI テキストを識別しました
このプロセスは簡単そうに見えますが、さらにクリエイティブになることができます。さらに細かく制御するには、最初から開始するオプションを選択します。ここでは、独自の画像をアップロードするか、従来のプロンプトを作成することで、主題、シーン、スタイルに合わせた画像を選択できます。どこから始めればよいかわからない場合は、Whisk にインスピレーションを求めると、一連の画像が生成されます。
準備ができたら、組み合わせた選択内容に基づいて新しい画像を生成するように Whisk に指示します。それに応じて、Whisk はミックスに基づいて複数の画像を表示します。ソース画像を追加または削除したり、プロンプトを編集したりすることで、結果を絞り込むことができます。
生成したすべての画像は、Whisk ライブラリに自動的に保存されます。そこから、不要な画像を削除し、気に入った画像をダウンロードできます。ダウンロードは JPG ファイルとして保存されるため、他のアプリやサービスで使用できます。
Google はどのようにしてこの種の画像生成を実現しているのでしょうか?
Whisk は、ソース イメージを複製して新しいイメージを作成するのではなく、いくつかの重要な要素を抽出します。
「Gemini モデルは舞台裏で、画像の詳細なキャプションを自動的に書き込みます。その後、その説明が Google の最新の画像生成モデルである Imagen 3 に入力されます」と Google の製品管理ディレクターである Thomas Iljic 氏は記事で述べています。 月曜日に公開されたブログ投稿。 「このプロセスは、正確なレプリカではなく、被写体の本質を捉えます。そうすることで、斬新な方法で被写体、シーン、スタイルを簡単にリミックスできます。」
関連記事: より良い ChatGPT プロンプトを作成し、必要な結果をより速く得るための 7 つの方法
その結果、生成された人物の画像は、身長、体重、髪型、肌の色などが元のものとは異なる場合があります。 Google では、結果を特定の方向に導きたい場合に、基礎となるプロンプトを編集することもできます。
「アーティストやクリエイターを対象とした初期のテストでは、人々は Whisk を従来の画像エディターではなく、新しいタイプのクリエイティブ ツールだと評していました」と Iljic 氏は付け加えました。 「私たちは、ピクセル完璧な編集ではなく、迅速な視覚的探索のためにこれを構築しました。これは、新しく創造的な方法でアイデアを探索することであり、数十のオプションを検討して、気に入ったものをダウンロードできるようにします。」