Nvidia の研究者は、Fugatto と呼ばれる新しい人工知能 (AI) オーディオ ジェネレーターを開発し、これまでに聞いたことのないサウンドを作り出すことができると主張しています。
Fugatto (Foundational Generative Audio Transformer Opus 1の略) は「サウンド用のスイス・アーミー・ナイフ」として開発され、ユーザーは簡単なテキスト・プロンプトでオーディオを編集または生成できると、半導体大手は2024年11月25日のブログ投稿で述べた。
こちらもお読みください: センターが PAN 2.0 プロジェクトを承認: 新機能、主なメリット、知っておくべきことすべて
これらのプロンプトの例には、曲から特定の楽器を削除する、誰かの声のアクセントを変更するなどが含まれます。
「私たちは、人間と同じように音を理解し、生成するモデルを作りたかったのです」と、NVIDIA の応用オーディオ研究マネージャーであり、Fugatto の背後にある十数人のメンバーの 1 人であり、オーケストラの指揮者および作曲家である Rafael Valle 氏は述べています。
Fugatto の用途は多岐にわたります。たとえば、広告代理店はこれを使用して、ナレーションにさまざまなアクセントや感情を適用することで複数の地域向けの広告を作成したり、家族や友人の声を使用してオンライン コースを作成したり、ビデオ ゲームで新しいアセットを作成したりできます。飛ぶなど。
トランペットの鳴き声やサックスの鳴き声まで出すこともあります。制限はユーザーの想像力によってのみ決まります。
研究者らは、テキストプロンプトから高品質の歌声を生成するなど、これまで訓練されていなかったタスクを処理できることも発見しました。
このモデルでは、ComposableART と呼ばれる技術を使用して命令を結合します。たとえば、プロンプトを組み合わせて、フランス語のアクセントで悲しい感情を表現したテキストを要求することができます。
こちらもお読みください: マヒンドラは BE 6e と XEV 9e で EV 市場に参入、それらについてすべてを知る
また、時間の経過とともに変化するサウンドを生成することもできます。これは時間補間と呼ばれます。たとえば、雷雨が最高潮に達し、ゆっくりと遠くに消えていくエリアを通過する暴風雨の音を作成でき、ユーザーはサウンドスケープがどのように展開するかをきめ細かく制御することもできます。
このツールは、インド、ブラジル、中国、ヨルダン、韓国など、世界中の多様な人々によって作成されました。 Nvidiaは、これによりFugattoのマルチアクセント機能と多言語機能が強化されたと主張している。
Fugatto のフル バージョンは、32 個の NVIDIA H100 Tensor コア GPU を搭載した一連の NVIDIA DGX システムでトレーニングされた 25 億のパラメーターを使用します。
ただし、これらすべてには、AI が人々の仕事をどのように奪えるかという昔ながらの考えに戻り、著作権の問題にもつながる、いくつかの潜在的な問題も伴います。
例えば、オーストラリア声優協会は議会委員会に対し、企業がAIベースの代替を進めれば、約5,000人の地元声優が間もなく職を失う可能性があると見積もっていると警告した。
これとは別に、音楽業界ですら、著作権で保護されたコンテンツを侵害する生成 AI について懸念を示しています。たとえば、アメリカレコード協会は最近、自社の音楽を複製したとしてAIツールに対して訴訟を起こした。
しかし、これは見方によっては、もっとポジティブな側面もあります。アーティストはそれを自分の作品を支援するために使用できます。
「音は私のインスピレーションです。それが私を音楽を作る原動力にしています。スタジオでまったく新しいサウンドをその場で作成できるというアイデアは信じられないほどです」と、マルチ プラチナム プロデューサー兼ソングライターであり、スタートアップ向けの NVIDIA インセプション プログラムのメンバーである One Take Audio の共同創設者でもある Ido Zmishlany 氏は述べています。
こちらもお読みください: インテル、米国政府から78億6000万ドルのチップ製造補助金を獲得