Nvidiaは月曜日、音声を変更して斬新なサウンドを生成できる音楽とオーディオを生成するための新しい人工知能モデルを披露した。これは音楽、映画、ビデオゲームの制作者を対象とした技術だ。
AIシステムの構築に使用されるチップとソフトウェアの世界最大のサプライヤーであるNvidiaは、同社がFoundational Generative Audio Transformer Opus 1の略でFugattoと呼んでいるこの技術を直ちに一般に公開する計画はないと述べた。
これは、Runway などの新興企業や、テキスト プロンプトから音声やビデオを生成できる Meta Platforms などの大手企業が示す他のテクノロジーと結合します。
カリフォルニア州サンタクララに拠点を置く Nvidia のバージョンでは、テキストの説明から効果音や音楽が生成され、犬のようにトランペットの鳴き声を出すなどの斬新なサウンドも含まれています。
他の AI テクノロジーと異なる点は、既存のオーディオを取り込んで変更できることです。たとえば、ピアノで演奏されたラインを人間の声で歌ったラインに変換したり、話し言葉の録音を取り込んで変更したりすることができます。使用されるアクセントと表現される雰囲気。
「過去 50 年間の合成オーディオについて考えると、コンピューターやシンセサイザーのせいで、音楽の聞こえ方は今とは異なっています」と Nvidia の応用深層学習研究担当バイスプレジデント、ブライアン カタンザロは述べています。 「生成 AI は、音楽、ビデオ ゲーム、そして何かを作りたいと願う一般の人々に新しい機能をもたらすと思います。」
OpenAIなどの企業は、AIをエンターテインメント業界で使用できるかどうか、またどのように使用するかについてハリウッドのスタジオと交渉しているが、特にハリウッドスターのスカーレット・ヨハンソンがOpenAIが自分の声を模倣していると非難して以来、テクノロジーとハリウッドの関係は緊張している。
Nvidiaの新モデルはオープンソースデータに基づいてトレーニングされており、一般に公開するかどうか、またその方法についてはまだ検討中だと同社は述べた。
「生成技術には常にある程度のリスクが伴います。人々はそれを利用して、私たちが望まないものを生成する可能性があるからです」とカタンツァーロ氏は述べた。 「その点については注意が必要です。そのため、これを直ちにリリースする予定はありません。」
生成 AI モデルの作成者は、ユーザーが誤った情報を生成したり、著作権で保護されたキャラクターを生成して著作権を侵害したりするなど、テクノロジーの悪用を防ぐ方法をまだ決めていません。
OpenAIとMetaも同様に、オーディオやビデオを生成するモデルをいつ一般に公開する予定なのかについては明らかにしていない。
—スティーブン・ネリス、ロイター