Microsoft Researchは、視覚と言語の処理を組み合わせてソフトウェアインターフェイスとロボットシステムを制御する統合されたAIベースモデルであるMagmaを発表します。
これ 報告 Ars Technica。結果がMicrosoftの内部テストを超える場合、物理世界とデジタルの両方の世界でインタラクティブに動作できる多目的なマルチモーダルAIの大きな前進を表します。
Microsoftは、マグマは、テキスト、画像、ビデオなどのマルチモーダルデータを処理するだけでなく、直接行動することもできる最初のAIモデルであると主張しています。これは、ユーザーインターフェイスをナビゲートしているのか、物理的なオブジェクトを操作しているのかに関係なくです。このプロジェクトは、マイクロソフト、カイスト、メリーランド大学、ウィスコンシン大学マディソン大学、ワシントン大学の研究者とのコラボレーションです。
以前に同様のAI駆動型ロボットプロジェクトがありました。 GoogleのPalm-EとRT-2またはMicrosoftのChatGpt for Roboticsを検討してください。それらはインターフェイスとして大規模な言語モデル(LLM)を使用しました。しかし、知覚と制御のために個別のモデルを必要とする以前の多くのマルチモーダルAIシステムとは異なり、MAGMAはこれらの機能を単一のベースモデルに統合します。
エージェントAIに向けてステップ
マイクロソフトは、マグマをエージェントAIへの一歩として配置しています。これには、計画を自律的に作成し、それが見ているものについての質問に答えるのではなく、人間に代わって複雑なタスクを実行できるシステムが含まれます。マイクロソフトは、マグマが計画を策定し、行動を実行できると調査報告書に書いています。ユーザーが目標を説明する場合、マグマはその目標を達成することができます。
マイクロソフトは、エージェントAIを追求するだけではありません。 Openaiは、オペレーターなどのプロジェクトを通じてAIエージェントを実験しています。そのアプリケーションは、WebブラウザでUIタスクを実行できます。 Googleは、Gemini 2.0を含むいくつかのエージェントプロジェクトでエージェントAIを調査しています。
知覚モデル以上のもの
マグマは、トレーニングデータをニューラルネットワークに供給するトランスベースのLLMテクノロジーに基づいています。しかし、GPT-4Vのような従来の言語モデルとは異なります。口頭知能のみに焦点を当てる代わりに、マグマは空間知能も追加します。画像、ビデオ、ロボット工学データ、UIの相互作用を組み合わせてトレーニングすることにより、Microsoftは、Magmaは単なる知覚モデルではなく、真にマルチモーダルエージェントであると主張しています。