よく言われるように、データは新しい石油であり、おそらくそれがハーバード大学を新しいエクソンにしているのでしょう。同校は木曜日、AIモデルのトレーニングに使用できるパブリックドメインの書籍約100万冊を含むデータセットの立ち上げを発表した。新しく設立された Institutional Data Initiative の下で、このプロジェクトは Microsoft と OpenAI の両方から資金提供を受けており、Google ブックスでスキャンされた著作権保護の期限が切れた古い書籍が含まれています。
有線 で ピース 新しいプロジェクトでは、このデータセットには「シェイクスピア、チャールズ・ディケンズ、ダンテの古典に加え、知られていないチェコの数学教科書やウェールズ語のポケット辞書も含まれている」という幅広い種類の書籍が含まれていると述べています。原則として、著作権の保護は、作者の生涯にさらに 70 年間を加えた期間存続します。
ChatGPT のような、本物の人間にそっくりに動作する基礎的な言語モデルは、トレーニングのために膨大な量の高品質のテキストを必要とします。一般に、モデルが取り込む情報が多ければ多いほど、人間を模倣して知識を提供する際のモデルのパフォーマンスが向上します。しかし、OpenAI のような企業が、少なくとも情報を盗むことなく、どれだけの新しい情報を見つけられるかという壁にぶつかったため、データへの渇望が問題を引き起こしました。
を含む出版社 ウォール・ストリート・ジャーナル そして ニューヨークタイムズ は、許可なくデータを取り込んだとして OpenAI と競合他社の Perplexity を訴えました。 AI企業の支持者たちは、その活動を擁護するためにさまざまな主張を行っている。彼らは、人間自身が他のソースから素材を研究し、合成したことに基づいて新しい作品を生み出すが、AIもそれと何ら変わらない、と言うことがあります。誰もが学校に通い、本を読み、得た知識を使って新しい作品を生み出します。新しい作品が実質的に異なる場合、リミックスは法的にフェアユースとみなされます。しかし、これは人間がコンピューターのような速度で何十億ものテキストを取り込むことができないことを考慮していないため、正確には公平な比較とは言えません。の ウォール・ストリート・ジャーナル その中で Perplexityに対する訴訟 同社は「大規模なコピーを行っている」と述べた。
この分野の関係者らは、オープンな Web 上で利用できるコンテンツはすべて、 本質的に公平なゲーム そして、チャットボットのユーザーは、プロンプトを通じて著作権で保護されたコンテンツをリクエストすることによってアクセスする人です。基本的に、Perplexity のようなチャットボットは Web ブラウザーに似ています。こうした議論が法廷で展開されるまでにはしばらく時間がかかるだろう。
OpenAIは批判に応えて一部のコンテンツプロバイダーと契約を結び、Perplexityはパブリッシャーと広告付きのパートナープログラムを展開した。しかし、彼らがしぶしぶそうしたことは明らかです。
AI 企業が利用できる新しいコンテンツが不足しているのと同時に、トレーニング セットにすでに含まれている一般的に使用されている Web ソースは、 すぐにアクセス制限を始めた。 Reddit や X などの企業は、データの計り知れない価値、特に世界に関するより最新の情報で基礎モデルを強化するためのリアルタイム データの保有を認識しているため、データの使用制限に積極的に取り組んできました。
レディットが作る 何億ドルも モデルをトレーニングするために、サブレディットとコメントのコーパスを Google にライセンス供与します。イーロン・マスク氏の X は、彼の別の会社である xAI と独占的な協定を結んでおり、自社のモデルがトレーニングや最新情報の取得のためにソーシャル ネットワークのコンテンツにアクセスできるようにしています。これらの企業が自社のデータを厳重に保護しているにもかかわらず、本質的にメディア発行者からのコンテンツには価値がなく、無料であるべきだと考えていることを考えると、ある意味皮肉です。
特にこれらの本が古く、Z 世代の子供たちが使用しているスラングのような最新の情報が含まれていないことを考えると、100 万冊の本では AI 企業のトレーニングのニーズを満たすには十分ではありません。競合他社との差別化を図るために、AI 企業は他のデータ、特に排他的な種類のデータへのアクセスを継続したいと考えているため、すべてが同じモデルを作成しているわけではありません。 Institutional Data Initiative のデータセットは、法的問題に巻き込まれることなく初期の基礎モデルをトレーニングしようとしている AI 企業に少なくともある程度の支援を提供することができます。