Microsoft Researchは、マグマと呼ばれる新しいAIモデルを導入しました。これは、ソフトウェアインターフェースとロボットシステムの両方を制御するための人工知能の大きな進歩を示す可能性があります。マグマは視覚と言語の処理を組み合わせて、デジタルと物理の両方の世界で動作できるようにし、潜在的に多用途のAIモデルになります。
データを解釈してアクションを実行するために個別のモデルに依存する多くの既存のマルチモーダルAIシステムとは異なり、Magmaはこれらの機能を1つのシステムに統合します。 Microsoftは、これがマグマをユニークにしていると主張しています。これは、テキスト、画像、ビデオなどのデータを処理し、ソフトウェアのナビゲートであろうとロボットを制御するかどうかにかかわらず、ネイティブに行動できるからです。この進歩は、さまざまなシナリオで動作できる、より自律的でインテリジェントなAIシステムにつながる可能性があります。
マグマの発展は、マイクロソフトとメリーランド大学、ウィスコンシン大学マディソン大学、ワシントン大学などの著名な学術機関との間の共同の取り組みでした。 AIは、MicrosoftがエージェントAIシステムの作成へのステップとして想定しているため、単に質問に答えたり、単一のコマンドを実行したりするだけでなく、移動することを目指しています。これは、AIが自律的にマルチステップタスクを計画および実行して、人間の介入なしに複雑な目標を達成できることを意味します。
その研究では、Microsoftは、Magmaが説明された目標に基づいて計画を作成し、その目的を達成するための行動をとる方法を強調しています。利用可能な視覚データと言語データを活用することにより、Magmaは仮想設定と物理的設定の両方で複雑なタスクを処理できます。これは、製造、ヘルスケア、デジタルオートメーションなどの業界で幅広いアプリケーションを持つ可能性があります。
OpenaiやGoogleなどの他のハイテク企業も、エージェントAIの可能性を調査しています。 Openaiのオペレーターなどのプロジェクトでの実験は、Webブラウザーでタスクの実行に焦点を当てていますが、GoogleはGemini 2.0イニシアチブでエージェントAIを開発しています。ただし、マグマを違うのは、知覚と行動に対する統合されたアプローチであり、実際のアプリケーションで優位性を与える可能性があります。