動物の鳴き声を人間の言語に翻訳する競争

2025 年には、AI と機械学習を活用して動物のコミュニケーションの理解が真の進歩を遂げ、人類が存在して以来人類を困惑させてきた質問、「動物は互いに何を言っているのか?」という質問に答えられるでしょう。最近の コラー・ドリトル賞、「コードを解読」した科学者に最大 50 万ドルの賞金を提供するということは、機械学習と大規模言語モデル (LLM) における最近の技術開発により、この目標が私たちの手の中にあるという強気な自信の表れです。

多くの研究グループは、動物の鳴き声を理解するアルゴリズムの開発に長年取り組んできました。たとえば、プロジェクト Ceti はマッコウクジラのクリック列やザトウクジラの歌を解読しています。これらの最新の機械学習ツールは非常に大量のデータを必要としますが、これまでは、このような量の高品質で十分に注釈が付けられたデータが不足していました。

インターネット上で利用可能なテキスト全体を含むトレーニング データを利用できる ChatGPT などの LLM を検討してください。アニマルコミュニケーションに関するこのような情報は、これまでアクセスできませんでした。それは、人間のデータ コーパスが、私たちがアクセスできる野生動物のデータよりも桁違いに大きいというだけではありません。GPT-3 のトレーニングには、わずか 8,000 個を超える「コーダ」に対して、500 GB 以上の単語が使用されました。 」(または発声)プロジェクト Ceti によるマッコウクジラのコミュニケーションに関する最近の分析。

さらに、人間の言語を扱うとき、私たちはすでに 知る 何が言われているのか。私たちは「言葉」を構成するものさえ知っています。これは、動物のコミュニケーションを解釈するのに比べて大きな利点です。科学者は、たとえば、特定のオオカミの遠吠えが別のオオカミの遠吠えと何か違う意味を持っているかどうか、さらにはオオカミがその遠吠えを次のようなものだと考えているかどうかさえほとんど知りません。人間の言語の「言葉」に似ています。

それにもかかわらず、2025 年には、科学者が利用できるアニマルコミュニケーションデータの量と、それらのデータに適用できる AI アルゴリズムの種類と能力の両方において、新たな進歩がもたらされるでしょう。動物の鳴き声の自動録音は、AudioMoth などの低コストの録音デバイスの人気が爆発的に高まり、あらゆる科学研究グループが容易に利用できるようになりました。

現在、大規模なデータセットがオンラインになりつつあり、レコーダーを現場に放置して、ジャングルのテナガザルや森の鳥の鳴き声を 24 時間 365 日、長期間にわたって聞くことができます。このような大規模なデータセットを手動で管理することが不可能な場合もありました。現在、畳み込みニューラル ネットワークに基づく新しい自動検出アルゴリズムは、数千時間の録音を高速に実行し、動物の鳴き声を抽出し、動物の自然な音響特性に応じてさまざまなタイプにクラスタリングすることができます。

これらの大規模な動物データセットが利用可能になると、ディープ ニューラル ネットワークを使用して、人間の言語の意味のある構造に類似した動物の発声シーケンスの隠れた構造を見つけるなど、新しい分析アルゴリズムが可能になります。

しかし、依然として不明瞭な根本的な疑問は、私たちがこれらの動物の鳴き声を使って一体何をしたいのかということです。 Interspecies.io などの一部の組織は、その目標を「ある種からの信号を別の種のコヒーレントな信号に変換する」と非常に明確に設定しています。言い換えれば、 翻訳する 動物のコミュニケーションを人間の言語に変える。しかし、ほとんどの科学者は、人間以外の動物は、少なくとも私たち人間が言語を持っているようには、独自の実際の言語を持たないことに同意しています。

コラー・ドリトル賞はもう少し洗練されたもので、「生物とコミュニケーションをとる、または生物のコミュニケーションを解読する」方法を探しています。実際には動物が翻訳可能な言語を持っていない可能性を考慮すると、解読は翻訳よりも少し野心的な目標ではありません。今日、動物同士がどの程度の情報を伝達するのか、またはどのくらいの情報を伝達するのかはわかりません。 2025年、人類は、動物がどれだけ話すかだけでなく、動物たちがお互いに正確に何を言っているかについて、私たちの理解を飛び越える可能性を秘めています。

出典