アマゾンは、技術グループがシステムの AI オーバーホールに立ちはだかった課題の解決に向けて急ぐ中、Alexa の音声駆動デジタルアシスタントを、実用的なタスクを実行できる人工知能「エージェント」として再起動する準備を進めている。
2兆4000億ドルの同社は過去2年間、世界中で5億台の消費者向けデバイスに組み込まれている同社の会話システムであるAlexaの再設計を模索しており、ソフトウェアの「頭脳」には生成AIが移植されている。
Amazonの汎用人工知能(AGI)チームを率いるロヒト・プラサド氏はフィナンシャル・タイムズに対し、音声アシスタントの展開にはまだいくつかの技術的ハードルを乗り越える必要があると語った。
これには、「幻覚」や捏造された回答の問題、その応答速度や「遅延」、そして信頼性の問題の解決が含まれます。 「幻覚はゼロに近づけなければなりません」とプラサド氏は言う。 「業界ではまだ未解決の問題ですが、私たちはこの問題に非常に熱心に取り組んでいます。」
Amazon のリーダーたちのビジョンは、現在も音楽の再生やアラームの設定などの限られた単純なタスクに使用されている Alexa を、パーソナライズされたコンシェルジュとして機能する「代理店」製品に変えることです。これには、レストランの提案から、人の睡眠サイクルに基づいた寝室の照明の設定まで、あらゆるものが含まれる可能性があります。
Alexaの再設計は、2022年末にMicrosoftの支援を受けてOpenAIのChatGPTが発表されて以来、進められている。Microsoft、Google、Metaなどが急速に生成AIを自社のコンピューティングプラットフォームに組み込み、ソフトウェアサービスを強化している一方で、批評家らはAmazonがそれができるかどうか疑問視している。技術的および組織的な闘争を時間内に解決して、ライバルと競争する。
近年Amazonの音声アシスタントチームで働いてきた複数のスタッフによると、その取り組みは複雑な問題を抱えており、長年にわたるAIの研究開発に続いているという。
数名の元従業員は、公開までの長い待ち時間の主な原因は、Alexa が構築したよりシンプルで事前定義されたアルゴリズムと、より強力ではあるが予測不可能な大規模な言語モデルを切り替えたり組み合わせたりする際に予期せぬ困難が生じたためであると語った。
これに対しアマゾンは、音声アシスタントの「より積極的で有能な支援を可能にするために懸命に取り組んでいる」と述べた。さらに、世界中の顧客が使用するライブサービスとデバイススイートへのこの規模の技術的実装は前例がなく、Alexa サービスに LLM をオーバーレイするほど単純ではないと付け加えた。
Alexa の元チーフアーキテクトであるプラサド氏は、AGI チームが主導する社内 Amazon Nova モデルの先月リリースは、AI を支援するための最適な速度、コスト、信頼性に対する特定のニーズによって部分的に動機づけられたと述べました。 Alexa などのアプリケーションは「最後の 1 マイルに到達するのは非常に困難です」。
プラサド氏によると、エージェントとして動作するには、Alexaの「頭脳」が何百ものサードパーティのソフトウェアやサービスを呼び出すことができなければならないという。
「Alexa に統合されているサービスの数を過小評価することがありますが、その数は膨大です。これらのアプリケーションは週に何十億ものリクエストを受け取るため、信頼性の高いアクションを迅速に実行しようとしている場合に最適です。 。 。非常に費用対効果の高い方法でそれを行うことができなければなりません」と彼は付け加えた。
この複雑さは、Alexa ユーザーが迅速な応答と非常に高いレベルの精度を期待していることから生じています。このような性質は、音声と言語のパターンに基づいて単語を予測する統計ソフトウェアである、今日の生成 AI に固有の確率的な性質とは相容れません。
元スタッフの中には、創造性や自由に流れる対話などの新しい生成機能をアシスタントに吹き込みながら、一貫性や機能性などアシスタントの本来の特性を維持するのに苦労していることを指摘する人もいる。
事情に詳しい関係者によると、LLMはよりパーソナライズされておしゃべりな性質を持っているため、同社はAIの性格、音声、語彙を形成する専門家を雇い、Alexaユーザーにとって親しみやすいものとなるよう計画しているという。
Alexa チームの元上級メンバーの 1 人は、LLM は非常に洗練されているものの、「場合によっては完全に発明された」答えを生み出すなどのリスクを伴うと述べました。
「アマゾンが事業を展開している規模では、それが1日に何度も起こる可能性がある」と彼らは述べ、アマゾンのブランドと評判に傷がついたと述べた。
6月、Alexaの元機械学習科学者であり、その「会話モデリングチーム」の創設メンバーであるミハイル・エリックは、次のように述べた。 公に言った アマゾンはアレクサとともに「会話型AIの明白な市場リーダー」になることに「失敗した」と述べた。
エリック氏は、優れた科学的才能と「莫大な」資金力を持っているにも関わらず、同社は「技術的および官僚的問題を抱えていた」と述べ、「データの注釈が不十分」であり、「文書が存在しないか、古くなっている」ことを示唆した。
Alexa 関連の AI に取り組んでいた 2 人の元従業員によると、音声アシスタントを支えていた歴史的なテクノロジーは柔軟性が低く、すぐに変更することが困難で、不格好で整理されていないコード ベースと「分散しすぎた」エンジニアリング チームが重荷となっていました。
オリジナルの Alexa ソフトウェアは、2012 年に英国の新興企業 Evi から買収した技術を基にして構築されており、定義された事実の世界内を検索して、その日の天気や具体的な質問など、適切な応答を見つけることで機能する質問応答マシンでした。音楽ライブラリ内の曲。
新しい Alexa は、さまざまな AI モデルを組み合わせて音声クエリを認識して翻訳し、応答を生成するだけでなく、不適切な応答や幻覚を検出するなどのポリシー違反を特定します。従来のシステムと新しい AI モデルの間で変換するソフトウェアを構築することが、Alexa-LLM 統合における大きな障害となっていました。
これらのモデルには、最新の Nova モデルを含む Amazon 独自の社内ソフトウェアと、Amazon が過去 18 か月間で 80 億ドルを投資した新興企業 Anthropic の AI モデルである Claude が含まれています。
「AI エージェントに関して最も難しいのは、AI エージェントが安全で、信頼でき、予測可能であることを確認することです」と Anthropic の最高経営責任者、ダリオ・アモデイ氏は昨年 FT に語った。
エージェントのような AI ソフトウェアは、「どこで 」という点に到達する必要があります。 。 。人々は実際にシステムを信頼することができるのです」と彼は付け加えた。 「その点に達したら、これらのシステムをリリースします。」
ある現従業員は、チャイルドセーフティフィルターのオーバーレイや、スマートライトやリングドアベルなどのAlexaとのカスタム統合のテストなど、さらなる手順がまだ必要だと述べた。
「問題は信頼性です。それをほぼ 100% の時間稼働させることが重要です。」とその従業員は付け加えました。 「それがあなたが私たちを見ている理由です。 。 。あるいは Apple や Google がゆっくりと段階的に出荷することもあります。」
Alexa向けの「スキル」や機能を開発している多数のサードパーティは、新しい生成AI対応デバイスがいつ公開されるのか、またその新しい機能をどのように作成するのかが不明だと述べた。
スウェーデンのコンテンツ開発会社ワンダーワードの共同創設者トーマス・リンドグレーン氏は、「詳細と理解を待っている」と語った。 「私たちが彼らと仕事をし始めたとき、彼らはもっとオープンでした。 。 。そして時間が経つにつれて、それらは変化しました。」
別のパートナーは、次世代Alexaの準備を始めるようアマゾンから開発者らに課せられた初期の「圧力」の後、事態は静まったと述べた。
2023年に大規模な人員削減に見舞われたAmazonのAlexaチームにとって永遠の課題は、どうやってお金を稼ぐかだ。生成AIグループOctoAIの共同創設者、ジャレッド・ロシュ氏は、アシスタントを「大規模に実行できるほど安価」にする方法を見つけることが大きな課題になるだろうと述べた。
Alexaの元従業員によると、議論されている選択肢には、新しいAlexaサブスクリプションサービスを創設することや、商品やサービスの売上の一部を受け取ることが含まれるという。
プラサド氏は、アマゾンの目標は、アレクサを超えたさまざまなアプリケーションの「構成要素」として機能できるさまざまなAIモデルを作成することだと述べた。
「私たちが常に基盤としているのは顧客と実用的なAIであり、私たちは科学のために科学を行っているわけではありません」とプラサド氏は語った。 「私たちはこれをやっているのです。 。 。顧客に価値とインパクトを提供することです。この生成 AI の時代において、顧客は投資収益率を求めているため、これはこれまで以上に重要になっています。」