元GoogleデザイナーがGeminiのようなAIモデルの背後にあるものを明らかにする

  • Google は Gemini 2.0 を発表し、ユニバーサル パーソナル アシスタントの実現に一歩近づきました。
  • 元 Gemini の会話デザイナーが、チャットボット設計のベスト プラクティスについて語りました。
  • 同氏は、GoogleのAI製品とその検索エンジンが自己カニバリゼーションの問題に遭遇していると述べた。

Googleは今週、Gemini 2.0モデルを発表し、より「エージェント的な」AIによって人々をユニバーサルパーソナルアシスタントのバージョンに近づけることを約束した。

Googleが昨年12月にGemini 1.0をリリースしたとき、OpenAIのChatGPTに対抗しようとした。 Gemini は、検索エンジン結果の概要の提供から、書いたメモを音声ポッドキャストに変換できる製品 NotebookLM まで、ユーザーの Google 自体の体験方法をすぐに変えました。その 2.0 バージョンには、Gemini がウェブ上で情報を調べてレポートを作成できる「Deep Research」などの機能があります。

AI アシスタントの提供がますます人間に近づくにつれて、AI アシスタントを構築するエンジニアやデザイナーは、責任と口調の問題に取り組む必要があります。たとえば、一部の AI チャットボットは、機密性の高いトピックについての回答を拒否することがあります。

Business Insider は、元 Google Gemini の会話デザイナーであり、日系アメリカ人の俳優兼コメディアンであるケント モリタ氏に話を聞きました。

森田氏は以前、Amazon Alexa と Google Gemini の会話フローの設計に取り組み、特に AI の日本人ペルソナの構築に焦点を当てていました。同氏は、AI チャットボットの設計者がユーザーへの情報の効率的な配信についてどのように考えているか、また Google が検索エンジンと AI 製品のバランスを取る上で抱えている課題について洞察を与えました。

以下は、長さと明確さのために編集されました。

Business Insider: AI にとってデリケートなトピックに対応する「トーン」はどのように設計されていますか?

Kento Morita: 機密性の高い質問を受けるたびに、次のようなチェックリストが検討されます。「これは本質的に政治的なものですか?」これは本質的に性的なものですか?これにより、事実に反した何かが生成されますか?また、いつ生成されるのでしょうか?答えが「はい」の場合、最終的にこれらすべての企業が提供する答えの横に自社のロゴを表示するプロセスが実行されます。みたいな ウォーレン・バフェットの経験則、翌日のニューヨーク・タイムズやワシントン・ポストの一面にそれが載ることを私たちは喜ぶべきであり、それを誇りに思うべきです。

私たちが答えなければならない最大の質問は、Google や ChatGPT、あるいは誰かをこの回答に関連付けることは、利益にとって生産的ですか? ということです。

そうでない場合は、いわゆるパンティングを行います。 「申し訳ありませんが、今はそのような答えはできません」とだけ答えます。それはバランスをとる行為です。 10 フィートのポールでさえ触れたくないトピックもありますが、たとえば選挙の夜の報道など、答えを出したいものもいくつかあります。何が起こっているのか誰もが疑問に思っているでしょう。

私たちは、より多くの質問に回答することで、より多くの人が当社の Web サイトに留まるようにしたいと考えています。これらの企業には、できる限り多くの質問に答えたいという緊張感が常にあり、LLM であればどれでも答えられますが、これによりさらに否定的な報道が生じるのか、それとも潜在的に危険な回答が得られるのか、という点によってバランスをとる必要もあります。 ?法務チーム、マーケティングチーム、営業チームとたくさん話し合いました。これにどのようにアプローチしたいかについては、常に会話が続いています。

何を優先するかは常に問題です。

それは市場の共食いの問題でもある。

Google の最大の製品の 1 つは検索です。 Gemini を提供することは、検索ビジネスにとって何を意味しますか?それは現在も続く実存的な問いだ。

Google のような企業にとって、Perplexity AI のような企業は実際にこの点で有利かもしれません。なぜなら、彼らは 1 つの製品を作成し、1 つの製品を非常にうまく実行することに取り組んでいるからです。実際、彼らは自己共食いの問題に遭遇しません。大きな複合企業と関係のない企業からは、本当に興味深いこと、そして本当に大胆なことが起きていると思います。それは当然のことだと思います。

GoogleはGeminiをDeepMind組織の下に移した。なぜ彼らがこのようなことをしたのかは本当に分かりませんが、(元)従業員として、また Google を長年フォローしてきた者として、彼らが多くの AI ビジネスを 1 つの組織の下に統合していることは興味深いことです。 Googleをめぐって現在起こっている独占禁止法訴訟と、Googleを分割するかどうかをめぐって司法省と交わしている会話に光を当てる。少なくとも、もし分割するのであれば、分割することにどのような意味があるのか​​について話し合うことになると思います。そして、ジェミニが探索組織ではなく AI 組織の一員であることは、理にかなっていると思います。

私たちは、上部に広告が表示される Google 検索を使用することに慣れてきました。今は ジェミニ。これは事実上最新の結果ではありませんが、変化です。

Google 検索チームには優秀なエンジニアが揃っています。 North Star の目標は、関連性があり正確な検索結果を提供することであり、それがずっと目標でした。そして今度は広告を入力します。次に、Google ショッピングの結果を入力します。それからジェミニを連れてきます。組織内のこれらすべての他の要因が、 Google.com ウェブサイトのデザイン。

多くのエンジニアや Google 検索に長年取り組んでいる人々が非常に不満を感じているとしても、私は驚くことではありません。そうは言っても、彼らがやりたいこと、つまり良い検索結果を提供することに集中できるようにするために会社を解散するという考えを彼らが歓迎したとしても、私は驚きません。

の歴史について教えていただけますか チャットボットに脚注を追加する そしてそれは意図的な決定だったのか?幻覚によってチャットボットの反応はどのように変化しましたか?

Google アシスタントや Amazon Alexa であっても、事実に基づいた質問をすると、Wikipedia によれば「なんとかなんとかなんとか」、あるいは XYZ によれば「なんとかなんとかなんとか」と即座に答えていました。当時、それが良いアイデアであると人々を説得するのはかなり困難でした。その理由は、音声の会話の観点から、誰かに「XYZ はいつ発明されましたか?」と尋ねるときです。ウィキペディアによると、XYZ が 1947 年に発明されたということはあまり聞きたくありません。ただ答えを聞きたいだけです。答えにすぐにたどり着くことがデザインの美徳と考えられています。 Google は、検索結果の表示時間をできるだけ短くするために多大な時間と労力を費やしてきたため、顧客にできるだけ早く答えを得るということが Google の DNA に組み込まれています。

私たちは脚注を主張する必要がありました。彼らを本当に納得させたのは、ある Web サイトを帰属させた瞬間に、その情報の正確さに対する責任を別の Web サイトに負わせることになるという考えでした。

したがって、私が「ウィキペディア XYZ によれば、私が言っていることが正しいかどうかについては、もはや責任を負いません」と言うとき。ウィキペディアに対する責任を回避することもできます。そして、人々が反ユダヤ主義や陰謀論のようなものについて敏感な質問をし始めたとき、XYZによると、これは事実であるようですと言えることで、その発言から距離を置くことができます。これは非常に役に立ちます。 Googleのブランドイメージについて話しているとき。

「Google アシスタント」と名付けられた何かが「これが起こった」と言うと、話している内容すべてに Google を関連付けずにはいられません。そのため、このような距離を置く言葉によって、私たちは提示されている情報に対する責任を軽減することができます。そして、その精神は受け継がれており、そのような議論は、これらの企業の人々に私たちの情報源を引用するよう説得するのに非常に役立ちました。 Perplexity AI と同様に、すべてに脚注を明示するため、実際には、より物議を醸すトピックについてより自由に話すことができます。

何も編集する必要がないため、物議を醸すトピックやデリケートなトピックに関しては、これが非常に大きな利点となります。

説明可能性は、LLM 分野でよく話題になるものです。多くの人にとって、LLM は、テキストを入力するとテキストが吐き出されるような、ブラック ボックスのように感じられます。しかし、最終的には、それは予測エンジンです。予測エンジンであるこのブラック ボックスを中心としたコンテンツ デザインにガードレールを追加し、編集することは、特に機密情報に関しては非常に重要です。

Google Gemini や他の AI が情報源を引用しているとき、それは依然として予測マシンですか?

RAG (検索拡張世代) と呼ばれるものがあります。彼らがやっていることは、AP ニュースやロイターのような情報源のインデックスを高くして、それらの情報源とそれらの情報源に含まれる情報を偏らせることだと思います。 LLM がユーザーからさらに多くの情報を取得する場合、バックグラウンドでアトリビューション メカニズムが機能し、「RAG を使用してロイターまたは AP ニュースに電話して情報を取得します」と言うことができます。予測的ではないと思います。はるかにハードコーディングされています。

中絶などの一部のトピックについては、AI チャットボットは「何か心配なことはありますか?」と尋ねるなど、思いやりのある口調を採用します。それはトーンの大きな変化です。

これは、私が携わることをとても誇りに思う最大のことの 1 つです。Google アシスタントの開発中、自殺や自傷行為に関する言葉がどんな言葉であれ、私たちはメンタルヘルスの専門家やこれらのサービスを提供している人々に話を聞きに行きました。 、このホットラインの番号 1 をユーザーに提供できれば、役に立ちますか? 2 番目、それを行うのに最適な言語は何ですか?私たちはこれらすべてのリソースと話し合うことに細心の注意を払いました。

私の場合は、日本のリソースや日本のホットラインプロバイダーと話し合い、これらのメッセージを翻訳しました。時間はかかりましたが、自傷行為を考えているユーザーも含め、あらゆるユーザーが可能な限り最良の情報を入手できるように努めました。

中絶に関して言えば、これは戦略やコンテンツ戦略の同じ枠組みに当てはまります。中絶について調べている人々が安全で最終的には生きるのに役立つ方法で情報を確実に入手できるようにするにはどうすればよいでしょうか。彼らが望んでいる人生は?私が Google にいたとき、私たちは世界中の情報を収集し、可能な限り有用で誰もがアクセスできるようにするという使命を達成することができました。

最終的には、これらのエンジンの民主化が起こるでしょう。いずれの企業も、5 ~ 10 年以内にはかなりまともな LLM を導入することになるでしょう。私が X か ChatGPT か Google か Alexa などを使いたいかの違いは、パッケージにあるでしょう。

これらのテクノロジー企業が人間を人間のように扱い、ロボットに人間の言葉を話させるようになればなるほど、長期的にはそれらの企業が最も成功するのではないかと思います。