Googleは、最も強力なAIモデルであるGemini 2.0を誰にでも開きます

ビジュアルチャイナグループ|ゲッティイメージズ

グーグル 水曜日に、Gemini 2.0(その「最も有能な」人工知能モデルスイート)が誰にでもリリースされました。

Googleによると、12月に開発者と信頼できるテスターに​​アクセスし、いくつかの機能をGoogle製品に包むことができましたが、これは「一般リリース」です。

モデルのスイートには2.0フラッシュが含まれており、「大規模な大量の高周波タスクに最適な主力モデル」として請求され、コーディングパフォーマンスのための2.0 Pro Experimentional、2.0 Flash-Lite、2.0のFlash-Liteが同社がいます。 「これまでで最も費用効率の高いモデル」と呼んでいます。

Gemini Flashのコストは、開発者にテキスト、画像、ビデオ入力に100万個10セントのトークンにかかりますが、より費用対効果の高いバージョンであるFlash-Liteは、同じで0.75セントの費用がかかります。トークンは、モデルが処理するデータの個々のユニットを指します。

継続的なリリースは、AIアームズレースがハイテクジャイアンツとスタートアップの間で熱くなるにつれて、AIエージェントに多額の投資をするという幅広い戦略の一部です。

メタ、アマゾン、 マイクロソフト、Openaiと人類は、エージェントAIまたは、ユーザーがすべての個々のステップを踏まなければならないのではなく、ユーザーに代わって複雑な多段階タスクを完了できるモデルに向かっています。

詳細については、AIのCNBCレポートを読んでください

「昨年、私たちはより多くのエージェントモデルの開発に投資してきました。つまり、彼らはあなたの周りの世界についてより多くを理解し、あなたの監督であなたに代わって行動を起こすことができることを意味します」とGoogleは12月に書いた ブログ投稿、Gemini 2.0には、「ネイティブイメージやオーディオ出力など、ネイティブツールの使用などのマルチモダリティの新しい進歩」があり、モデルのファミリは「普遍的な」のビジョンに近づく新しいAIエージェントを構築できるようにすることを可能にします。アシスタント。”

Ex-Openaiの研究幹部によって設立されたAmazonが支援するAIスタートアップである人類は、AIエージェントを開発するための主要な競争相手です。 10月、Anthropicは、AIエージェントが人間のようなコンピューターを使用して複雑なタスクを完了することができると述べました。 Anthropicのコンピューター使用機能により、そのテクノロジーは、コンピューター画面にあるものを解釈し、ボタンを選択し、テキストを入力し、Webサイトをナビゲートし、ソフトウェアとリアルタイムのインターネットブラウジングを介してタスクを実行できます。

人類の最高科学責任者であるJared Kaplanは、当時のインタビューでCNBCに語った、このツールは「基本的に私たちと同じようにコンピューターを使用する」ことができます。彼は、「数十または数百のステップ」でタスクを行うことができると述べた。

Openaiは、最近、休暇の計画、フォームの記入、レストランの予約、食料品の注文などのタスクを自動化するオペレーターと呼ばれる同様の機能をリリースしました。 Microsoftから支援されたスタートアップは、オペレーターを「あなたのためにタスクを実行するためにWebに行くことができるエージェント」と説明しました。

今週初めに、OpenaiはDeep Researchを導入しました。これにより、AIエージェントは複雑な研究​​レポートを編集し、ユーザーの選択の質問とトピックを分析することができます。 12月にGoogleは、「研究助手、複雑なトピックを探索し、あなたに代わってレポートを編集する」という同じ名前の同様のツール(Deep Research)を立ち上げました。

CNBCは、12月にGoogleが2025年の初めにいくつかのAI機能を導入することを最初に報告しました。

「歴史上、あなたは常に最初である必要はありませんが、あなたはよく実行し、製品としてクラスで最高になる必要があります」とCEOのSundar Pichaiは当時の戦略会議で述べました。 「それが2025のすべてだと思います。」

CNBC Proのこれらの洞察をお見逃しなく

出典