Nvidia は、PC のデスクトップ上に常駐する AI アバターのプロトタイプを CES 2025 で発表しました。 AIアシスタントは、 R2Xはビデオ ゲームのキャラクターのように見え、コンピューター上のアプリを操作するのに役立ちます。
R2X アバターは Nvidia の AI モデルを使用してレンダリングおよびアニメーション化され、ユーザーは OpenAI の GPT-4o や xAI の Grok など、選択した一般的な LLM でアバターを実行できます。ユーザーはテキストや音声を通じて R2X と会話したり、ファイルをアップロードして処理したり、AI アシスタントを有効にして画面やカメラで何が起こっているかをライブで表示したりすることもできます。
テクノロジー企業は最近、ビデオゲームだけでなく、企業や消費者向けにも多くの AI アバターを作成しています。初期のデモは奇妙ですが、これらのアバターは AI アシスタントの有望なユーザー インターフェイスであると考える人もいます。 Nvidia は、R2X を使用して、生成ビデオ ゲーム機能と最先端の LLM を組み合わせて、人間のような見た目と操作感を備えた AI アシスタントを作成しようとしています。
同社は、これらのアバターを 2025 年前半にオープンソース化する予定です。Nvidia は、これを開発者が構築するための新しいユーザー インターフェイスと考えており、ユーザーはお気に入りの AI ソフトウェア製品をプラグインしたり、これらのアバターをローカルで実行したりすることもできます。
Microsoft のリコール機能とよく似ています ( プライバシー上の懸念により遅れました)、R2X は画面のスクリーンショットを継続的に取得し、処理のために AI モデルを通して実行できますが、この機能はデフォルトでオフになっています。オンにすると、コンピューター上で実行されているアプリケーションに関するフィードバックが提供され、たとえば、複雑なコーディング タスクの作業に役立ちます。
R2X はまだプロトタイプであり、Nvidia ですら、まだ解決すべきバグがいくつかあることを認めています。 TechCrunch のデモでは、Nvidia のアバターには不気味な谷のような雰囲気があり、顔が時々奇妙な位置に引っかかり、口調が少し攻撃的であるように感じられることがありました。そして、一般的に、仕事中に人型のアバターが私を見つめるのは少し奇妙に感じます。
R2X は通常、役立つ指示を提供し、画面に表示されている内容を正確に表示しました。しかし、ある時点でアバターが間違った指示を出し、その後アバターは画面をまったく見ることができなくなりました。これは基礎となる AI モデル (この場合は GPT-4o) に問題がある可能性がありますが、この例はこの初期のテクノロジーの限界を示しています。
あるデモでは、Nvidia の製品リーダーが、R2X が画面上のアプリを表示し、ユーザーを支援する方法を示しました。具体的には、R2X は Adobe Photoshop のジェネレーティブ フィル機能の使用に役立ちました。私たちが選んだ写真は、Nvidia CEO のジェンスン・フアンが 2 人のレストラン従業員とともにアジア料理レストランに立っている写真です。 Nvidia のアバターは幻覚を起こし、Photoshop のジェネレーティブ フィル機能の場所について間違った指示を出しました。その後、画面を表示できなくなりましたが、使用した AI モデルを xAI の Grok に切り替えた後、アバターは画面を表示できるようになりました。
別のデモでは、R2X はデスクトップから PDF を取り込み、それに関する質問に答えることができました。このプロセスは、ローカル検索拡張生成 (RAG) 機能によって強化されており、これらの AI アバターはドキュメントから情報を取得し、基盤となる LLM を使用してそれを処理することができます。
Nvidia は、ビデオ ゲーム部門のいくつかの AI モデルを使用して、これらのアバターの外観を強化しています。アバターを生成するために、Nvidia は RTX ニューラル フェイス アルゴリズムを使用します。顔、唇、舌の動きを自動化するために、Nvidia は と呼ばれる新しいモデルを使用しています。 Audio2Face™-3D。そのモデルは、アバターの顔をぎこちない位置に保持しているため、いくつかの点で失速しているように見えました。
同社はまた、これらの R2X アバターはパーソナル アシスタントとして Microsoft Teams の会議に参加できると述べています。
Nvidia の製品責任者によると、同社はこれらの AI アバターにエージェント機能も付与し、いつか R2X がデスクトップ上でアクションを実行できるようにする予定であると述べています。これらの機能の実現には長い道のりがあり、同様のエージェント システムを自社で開発しようとしている Microsoft や Adobe などのソフトウェア メーカーとの提携が必要になる可能性があります。
Nvidia がこれらの製品で音声をどのように生成しているかは、すぐには明らかではありません。 GPT-4o を使用するときの R2X の音声は、ChatGPT のプリセット音声のどれとも異なって聞こえますが、xAI の Grok チャットボットにはまだ音声モードがまったくありません。