木曜日のグーグル 発表された Android のアクセシビリティ機能は、Expressive Captions と呼ばれています。このソフトウェアは、Google の既存のライブ キャプション機能の上に構築されており、人工知能を使用して、聴覚障害者や聴覚障害者が音声対話の感情を理解できるようにします。
Google が誇る表現力豊かなキャプションは、ユーザーに次のことを提供するだけではありません。 読む 人々が何を言っているか、「あなたにも感情がわかります」と彼らは言いました。
同社はAndroid製品管理ディレクターのアンガナ・ゴーシュ氏が書いたブログ投稿で発表した。彼女は今日のニュースを「意味のある最新情報」と呼んだ。なぜなら、耳が聞こえない人々にも、まだ聞く機会が与えられる権利があるからだ。 感じる 人々が画面を読むだけでなく、画面上で何を言っているか。技術的なレベルで、Ghosh 氏は、Android デバイス上の AI を使用して声のトーンや音量などの音声属性を伝達することで表現力豊かなキャプションが機能すると説明しています。スポーツイベント中の群衆の騒音などの環境音も表現されます。ゴーシュ氏によると、これらは「言葉を超えて何かを伝える」という点で大きな影響を及ぼします。
私との短いインタビューで、ゴーシュ氏は、表現力豊かなキャプションの開発は、Google 内での横断的な共同作業であると述べました。 ディープマインド チームやその他多くの人々。表現力豊かなキャプションに命を吹き込むのは「ここ数年」だった、と彼女は付け加えた。マニアックな核心に関して言えば、Ghosh 氏は、表現力豊かなキャプションの機能について、「複数の AI モデルを使用してさまざまな信号を解釈し、音声に含まれる内容の全体像を把握できるようにする」と語ってくれました。 AI は、ゴーシュの言うところの「音声の文字起こしと適切な表現様式の認識」とともに、音声以外の音声や周囲の音を認識するために、受信音声をローカルで処理します。
「これらすべてのモデルがうまく連携して、ユーザーに望むエクスペリエンスを提供しています」と彼女は言いました。
ゴーシュはGoogleにとても言いました アクセシビリティを重視する。その目標は、障害者を含むすべての人のための製品を構築することです。同氏は、聴覚コンテンツが「聴覚障害者や難聴者のコミュニティにとってアクセスできないことが多い」ため、聴覚障害に直面している、またはまったく聴覚に障害がある人たちにとって、メディアをよりアクセスしやすくする方法として、ライブキャプションが2019年にデビューしたと述べた。
「Expressive Captions はそれをさらに一歩推し進め、話されている内容の背後にある文脈や感情を人々に提供し、オーディオとビデオのコンテンツをさらにアクセスしやすくします」とゴーシュ氏は述べています。
彼女はさらに次のように付け加えました。「よりアクセスしやすいテクノロジーを構築すると、全体的により優れた製品が作成されます。多くの場合、それらは障害のない人を含む幅広い人々にとって有益です。 Z 世代の 70% が定期的にキャプションを使用しているため、キャプションの場合は特にその傾向が顕著です。」
ライブキャプションが最初に導入されてから数年間、Google は聴覚障害者コミュニティの多くの人々から「コンテンツの背後にある感情やニュアンス」を見逃しているという声を聞いたとゴーシュ氏は述べました。彼女が言ったように、これは問題です。 「多くの場合、ため息や笑い声などの音声のニュアンスが、話されている内容の意味を完全に変える可能性があります。」ゴーシュ氏は、Google が表現力豊かなキャプションの作成において、演劇芸術家や言語聴覚士を含む多くの専門家と協力したと語った。これは、現在のテクノロジーでは不十分な領域を理解するのに役立ちましたが、より顕著なのは「オーディオ内で強調すべき重要なこと」を理解することです。
言い換えれば、Google は「コンテキストが確実に反映されるように」しようとしたのです。
「Expressive Captions は、携帯電話上のすべてのアプリとプラットフォームにわたって一貫した方法でその情報を提供します」と彼女は言いました。 「Expressive Captions は、音声とビデオのコンテンツの全体像を提供し、トーンや非言語音のニュアンスを捉えることを目的としています。これが、キャプションを人々にとってより有益で公平なものにするための一歩となることを願っています。」
技術的にどれほど素晴らしいものであり、真の利益のために AI の剣を振るうもう 1 つの例でもありますが、Google が表現力豊かなキャプションで行ったことは必ずしも目新しいものではないことに言及する必要があります。などの企業に雇用されているプロのキャプショナー ビタック、感情的なメタデータで字幕を強化してきました。多くの場所で、ゴーシュの前述の点に合わせて、適切な場所のため息や盛り上がる群衆の騒音などの周囲の詳細を示す括弧内の記述子があります。さらに、テレビ番組や映画中にどのような曲や音楽が流れているかを示すインジケーターもあります。
フィードバックについて尋ねられたとき、ゴーシュ氏は、表現力豊かなキャプションに対する反応は好意的に受け止められていると述べました。彼女は、まったく新しいテクノロジーとして、開発サイクル全体を通してテストを「埋め込み」、さまざまな様式をテストし、プロトタイプをさまざまなグループに展開することがチームにとって重要であると述べました。キャプションでは読みやすさとわかりやすさが最も重要であるため、最も重要な目標は、人々にとって「便利で直感的」と感じられる製品を構築することでした。テスト段階で多くの参加者が、表現豊かなキャプションにより精度とコンテキストが向上したと報告しました。
ゴーシュは将来に向けて興奮を表した。
「(表現豊かなキャプションを)リリースできることに非常に興奮しています」と彼女はこの機能の登場について語った。「キャプションにより多くの表現とコンテキストを組み込む方法を考えるのは、新たな挑戦です。これは自動的に行われたものではありません」私たちは、表現力豊かなキャプションが人々にとって真に役立つものとなるよう、検討していきたいと考えています。」