エージェント機能とマルチモーダル処理を通じて人工知能アプリケーションの範囲を拡大することを目的とした、Alphabet の (グーグ、 財務) Google DeepMind は、これまでで最も洗練された人工知能モデルである Gemini 2.0 のリリースを明らかにしました。
Gemini 2.0 により、Google は Microsoft の支援を受けて OpenAI と直接のライバル関係に置かれます (MSFT、 財務)は、独自の強力な人工知能モデル o1 を発表しました。 OpenAI の o1 は推論能力の向上を強調しており、従来の予測モデルを超えて、より人間に近い認知能力を目指しています。
この進化は、テキスト、ビデオ、画像、オーディオ、コードにわたるマルチモーダルな理解を導入するという Gemini 1.0 および 1.5 の成果を追跡します。新しいモデルでは、パフォーマンス ベンチマークの向上に加え、テキスト読み上げや画像合成などのネイティブ マルチモーダル出力でこれらの機能が拡張されています。
この発表で明らかになったように、Gemini 2.0 Flash モデルは、Gemini 1.5 Pro などの以前のモデルよりも遅延が低く、処理が高速です。 Google AI Studio と Vertex AI を使用すると、開発者はこの実験版にアクセスできます。 1 月にはより広範なリリースが予定されています。さらに、Google はマルチモーダル ライブ API を開発しました。これは、動的なアプリケーションの作成とリアルタイムのオーディオおよびビデオ入力を可能にするツール機能を組み合わせたものです。
思考力の向上と、より複雑なインタラクションを可能にするロングコンテキスト機能により、Google の Gemini 2.0 の統合の強化には、検索や Gemini アシスタント アプリなどの現在の製品への組み込みが含まれます。現在、来年のより広範なリリースに向けてテスト中であるこのモデルは、複雑な問い合わせ、高度な演算、コーディングを処理することを目的とした AI 概要などの機能を推進します。
Gemini 2.0 の機能を使用して、ブラウザの閲覧とタスクの実行のための実験ツールである Project Astra を含む多くのプロトタイプが作成されました。 Project Mariner、ブラウザを操作してタスクを実行するための実験的なツール。 GitHub ワークフローにリンクされたコーディング エージェントである Jules が構築されています。すべてのプロトタイプでは、人工知能が物理ロボット、ゲーム、ソフトウェア開発などの多くの分野でインタラクションと出力をどのように改善できるかを調査しています。
Google の特許取得済み Trillium テクノロジーに基づいて構築された Gemini 2.0 は、モデルの推論およびトレーニング メカニズムをサポートします。この戦略は、Google のフルスタック AI 発明に対する長期的な取り組みを表しています。安全性と倫理的問題は依然として Gemini 2.0 の展開の優先事項です。プライバシー制御、セッション メモリ管理、敵対的なクイック インジェクションに対する保護などの機能により、AI エージェントの責任ある使用が保証されます。
この記事が最初に掲載されたのは グルフォーカス。