OpenAI が最初にデモを行ってから 7 か月後、ChatGPT はリアルタイム ビデオを理解できるようになりました

OpenAI は、約 7 か月前にデモを行った ChatGPT のリアルタイム ビデオ機能をついにリリースしました。

同社は木曜日のライブストリーム中に、ChatGPTの人間のような会話機能であるAdvanced Voice Modeが実用化されつつあると述べた。 ChatGPT アプリを使用すると、ChatGPT Plus、Team、または Pro に加入しているユーザーは、携帯電話をオブジェクトに向けて、ほぼリアルタイムで ChatGPT に応答させることができます。

視覚を備えた高度な音声モードでは、画面共有を通じてデバイスの画面に何が表示されているかを理解することもできます。たとえば、さまざまな設定メニューについて説明したり、数学の問題について提案したりできます。

ビジョンを使用して高度な音声モードにアクセスするには、ChatGPT チャット バーの横にある音声アイコンをタップし、次に左下のビデオ アイコンをタップするとビデオが開始されます。画面を共有するには、三点メニューをタップして「画面を共有」を選択します。

OpenAIによると、ビジョンを備えたアドバンスト・ボイス・モードの展開は木曜日に開始され、来週中に完了する予定だという。ただし、すべてのユーザーがアクセスできるわけではありません。 OpenAIによると、ChatGPT EnterpriseとEduの加入者は1月までこの機能を利用できないほか、EU、スイス、アイスランド、ノルウェー、リヒテンシュタインのChatGPTユーザー向けのタイムラインも用意されていないという。

最近のデモ CNN の「60 Minutes」では、OpenAI 社長のグレッグ ブロックマンが高度な音声モードを使用し、アンダーソン クーパーが解剖学のスキルについて視覚クイズを出しました。クーパーが黒板に体の一部を描くと、ChatGPT は彼が何を描いているのかを「理解」できました。

OpenAI の従業員は、ライブストリーム中にビジョンを使用して ChatGPT の高度な音声モードをデモします。 画像クレジット:OpenAI

「場所は正確です」とChatGPTは言いました。 「脳は頭のすぐそこにあります。形に関しては、まずまずのスタートです。脳は楕円形に近いのです。」

ただし、同じデモでは、視覚を備えたアドバンスト ボイス モードが幾何学問題で間違いを犯し、幻覚が起こりやすいことが示唆されました。

ビジョンを備えたアドバンストボイスモードは何度も遅延しました — 伝えられるところによると その理由の 1 つは、OpenAI が製品化されるずっと前にこの機能を発表したためです。 OpenAIは4月、Advanced Voice Modeを「数週間以内に」ユーザーに展開すると約束した。数カ月後、同社はさらに時間が必要だと述べた。

秋の初めについに一部の ChatGPT ユーザー向けに Advanced Voice Mode が登場したとき、これには視覚分析コンポーネントが欠けていました。木曜日のリリースに向けて、OpenAI は音声のみのアドバンスト ボイス モード エクスペリエンスを追加のプラットフォームに導入することに焦点を当ててきました。 EU内のユーザー

Google や Meta などのライバル企業も、それぞれのチャットボット製品で同様の機能の開発に取り組んでいます。今週、Google は、リアルタイムのビデオ分析会話型 AI 機能 Project Astra を、Android の「信頼できるテスター」のグループが利用できるようにしました。

ビジョンを備えたアドバンスボイスモードに加えて、OpenAIは木曜日、サンタの声をChatGPTのプリセットボイスとして追加するお祝いの「サンタモード」を開始した。ユーザーは、ChatGPT アプリのプロンプト バーの横にあるスノーフレーク アイコンをタップまたはクリックすることでこのアイコンを見つけることができます。

出典