水曜日、Google 発表された Gemini 2.0 は、Gemini 2.0 Flash と呼ばれる実験的リリースから始まる AI モデル ファミリの次世代です。モデル ファミリは、テキスト、画像、音声、ビデオなどの複数の種類の入力を処理しながら、テキスト、画像、音声を生成できます。これは、OpenAI の ChatGPT を強化する GPT-4o のようなマルチモーダル AI モデルに似ています。
Googleは声明で「Gemini 2.0 Flashは、開発者にとってこれまでで最も人気のあるモデルである1.5 Flashの成功を基にして構築されており、同様に速い応答時間でパフォーマンスが強化されている」と述べた。 「注目すべきことに、2.0 Flash は主要なベンチマークで 1.5 Pro よりも 2 倍の速度で優れています。」
Gemini 2.0 Flash (パラメータ数の点で 2.0 ファミリの最小モデル) は、Gemini API、AI Studio、Vertex AI などの Google の開発者プラットフォームを通じて本日発売されます。ただし、画像生成とテキスト読み上げ機能は、2025 年 1 月まで早期アクセス パートナーに限定されたままです。Google は、この技術を Android Studio、Chrome DevTools、Firebase などの製品に統合する予定です。
同社は、Gemini 2.0 Flash で作成されたすべてのオーディオと画像に SynthID 透かしテクノロジーを実装することで、生成されたコンテンツの潜在的な悪用に対処しました。このウォーターマークは、AI によって生成されたコンテンツを識別するために、サポートされている Google サービスに表示されます。
Google の最新の発表は、ユーザーに代わってアクションを実行できるエージェント AI システムの概念に大きく傾いています。 「昨年、私たちはよりエージェント的なモデルの開発に投資してきました。つまり、このモデルは、ユーザーの周囲の世界についてより深く理解し、何段階も先を考え、ユーザーの監督のもとでユーザーに代わって行動を起こすことができるのです」と Google CEO のサンダー・ピチャイ氏は次のように述べています。声明。 「本日、私たちはこの新しいエージェント時代に向けて構築された次の時代のモデルを発売できることを嬉しく思います。」