ハーバード大学の図書館イノベーションラボがパブリックドメインデータを使用して人工知能を訓練する取り組みを開始 – ハーバード大学法科大学院

10 年も経たないうちに、人工知能は有望なアイデアから、世界中の人々の生活や働き方に変化をもたらす完全に機能するエンジンへと進化しました。もちろんエンジンには燃料が必要で、AI のトレーニングに使用される膨大な量のデータがこれらのオンライン イノベーションを推進しています。

機関データイニシアチブ (IDI) はハーバード大学法科大学院図書館内でホストされている新しいプログラムで、AI トレーニングに利用できるデータ リソースを拡張および強化する取り組みがすでに進行中です。 12 月 12 日のこのイニシアチブの公開発表会で、Library Innovation Lab の教員ディレクターである Jonathan Zittrain '95 と IDI エグゼクティブ ディレクターの Greg Leppert は、知識機関からのパブリック ドメイン データ (約 100 万件のテキストを含む) の利用可能性を拡大する計画を発表しました。ハーバード大学図書館で書籍をスキャン — AI モデルをトレーニングするため。

ハーバード大学法科大学院のジョージ・ビーミス国際法教授で副学部長のジットレイン氏は、「人類の知識を集約した図書館やその他の管理者は、知識を保存し、既知の用途と全く予期せぬ目的の両方にアクセスできるように、何世紀にもわたって考えることができる」と述べた。ハーバード大学ロースクールの図書館。

「IDI の目的は、機関の価値を維持する方法で、目立たないテキストに対するこれらの分野の新たに活発化した関心に応えることです。それは、柵で囲まれたままになっているパブリック ドメインの著作物にすべての人がアクセスできるようにすること、つまり人間の目と想像力による機械処理の両方にアクセスできるようにすることを意味します。後者では、現在のフロンティアモデルから探索や改良を望む学生や学者まで、最も簡単で最適な範囲の使用を促進するために、完全な標準ではないにしてもサンプルを偽造する必要があります。」

Leppert 氏は Harvard Law Today と対談し、IDI の使命について話し、なぜハーバード大学のような機関によって管理されるデータがより良い AI の未来を築く鍵となるのかを説明しました。


ハーバード大学の今日の法律: 機関データ イニシアチブとは何ですか?

グレッグ・レパート: 機関データ イニシアチブでの私たちの取り組みは、あらゆる用途での機関データのアクセシビリティを向上させる方法を見つけることに焦点を当てています。その中には人工知能も含まれます。ハーバード ロー スクール図書館は、パブリック ドメインの書籍、要約書、研究論文などを収めた膨大なリポジトリです。この情報が最初にどのように記念されたか (ハードカバー、ソフトカバー、羊皮紙など) に関係なく、かなりの量がデジタル形式に変換されました。 IDI では、法科大学院の図書館にあるものなど、パブリック ドメインの作品の大規模なデータ セットを確保するよう取り組んでいます。 Caselaw アクセス プロジェクト、特に AI トレーニングのために、オープンでアクセスしやすくなっています。データの規模と質の点でハーバード大学だけが優れているわけではありません。同様のセットが学術機関や公共図書館全体に存在します。 AI システムの多様性は、トレーニングに使用されるデータの多様性に依存します。これらのパブリック ドメインのデータ セットは、将来の AI トレーニングのための健康的な食事の一部となるはずです。

「AI システムの多様性は、トレーニングに使用されるデータの多様性に依存します。これらのパブリック ドメイン データセットは、将来の AI トレーニングのための健康的な食事の一部となるべきです。」

HLT: Institutional Data Initiative はどのような問題の解決に取り組んでいますか?

リップ: 現状では、AI のトレーニングに使用されるデータは、規模、範囲、品質、完全性の点で制限されていることがよくあります。 AI のトレーニングに現在使用されているデータでは、さまざまなグループや視点が大幅に過小評価されています。現状では、外れ値は AI によって適切に提供されず、過小評価されたデータが含まれることによって、適切に提供される可能性があります。たとえば、アイスランドという国は、国立図書館の資料を AI アプリケーションに利用できるようにするための国家主導の取り組みに着手しました。それは、アイスランドの言語と文化が AI モデルで表現されないことを彼らが真剣に懸念していたからです。私たちはまた、ハーバード大学やその他の機関がコレクションの管理者であることを再確認するよう取り組んでいます。パブリック ドメインの資料に基づくトレーニング セットの急増は喜ばしいことですが、これによって資料が重大な省略や変更に対して脆弱にならないようにすることが重要です。何世紀にもわたって、知識機関は、公共の利益を促進し、多様な考え、文化集団、世界の見方の表現を促進することを目的として、情報の管理者としての役割を果たしてきました。そのため、人類に貢献する AI の能力を最適化したい場合、これらの機関がまさに AI トレーニング データのソースとなると私たちは考えています。現状では、改善の余地が大きくあります。

HLT: ハーバード大学のデータセットはどのようにして誕生し、どのような種類の資料が関係していますか?

リップ:Caselaw アクセス プロジェクト での複数年にわたる取り組みでした 図書館イノベーションラボ約 3 年間にわたって、360 年分の米国判例法がスキャン、解析され、この種では初のデータセットに構造化されました。そのデータセットは現在、法律 AI トレーニング セットのバックボーンとなっています。私たちは現在、Google ブックス プロジェクト中にハーバード図書館でスキャンされた約 100 万冊のパブリック ドメインの書籍を公開することに取り組んでいます。 20 年前、ハーバード図書館はそのプロジェクトに初期から参加し、書籍のスキャンだけでなくその選択にも多大な労力を費やしました。プロジェクトの基本的な目標は、この情報のアクセスしやすさを高め、これらの作品をインターネット上で「第一級市民」にし、書籍自体が主要な参照リソースとなるようにすることでした。 IDI の使命の一部は、ある意味、ハーバード図書館がハーバード大学の研究コミュニティに情報を提供することに加えて、新しい手段を通じてその情報にアクセスできるようにすることで、その精神を継続することです。

HLT: 機関データ イニシアチブの発足について説明してもらえますか?

リップ: IDI の概念は、ハーバード大学ロー スクール図書館の図書館イノベーション ラボで始まりました。私は、私の周りの学術研究者が AI の軌道に影響を与えることができる方法を見つけることに興味がありました。多くの研究者が業界に赴き、最先端のモデルに取り組んでいるのを見てきました。これらのモデルを作成するために必要な技術リソースがますます高価になっているのがわかりました。しかし、学術界やその他の知識機関内のデータが膨大であることも目にしました。私は、AI の構築に学術的な関与を確実にするために、機関のデータ リソースを活用する方法を見つけることに興味を持ちました。私はそのアイデアをジョナサン (Zittrain) に持ち込んだところ、ありがたいことに彼は非常に協力的でした。ハーバード大学ロースクール図書館の副館長であるアマンダ・ワトソン氏も同様です。そしてもちろん、図書館イノベーションラボのディレクターであるジャック・クッシュマンは、それを培養できる時間と空間を創造しました。

HLT: IDI の目標達成を妨げる可能性のある障害は何ですか?

リップ: 大学図書館やその他の知識機関は、AI について情報を提供し、その影響を形作る上で有利な立場にありますが、リソースの不足と時間の制約が現実的な重大な懸念事項です。また、あらゆるテクノロジーの急速な進歩は、技術的な専門知識の入手可能性を上回る傾向があります。同時に、AI の構築者には、それらの機関が保有するデータに関与したいというインセンティブがあるため、IDI は、これらの機関が関与できるようサポートすることを目的としています。 IDI は、知識機関と協力し、そのコレクションを AI やトレーニングに利用できるようにする方法を実証できるデータ サイエンティストとコミュニティ ビルダーのチームの育成に取り組んでいます。他の機関がその使命を推進するための最も効果的かつ効率的な方法を特定できるよう支援することで、限られたリソースという避けられない課題を軽減することができます。 AI の将来については、誰もが学ばなければならないことがまだたくさんあるため、私たちの使命の 1 つは、これらの重要な会話が行われるための堅牢なフォーラムを確立することです。

「AI の勢いは非常に強力で、正しく活用すれば、世界中の知識機関の使命を本当に拡大することができます。」

HLT: IDI は他の知識機関と連携して、協力の機会を模索していますか?

リップ: もちろん、私たちは現在ボストン公共図書館と協力しており、他のいくつかの図書館と交渉中です。私たちの立ち上げにより、私たちはできるだけ多くの知識機関とのつながりを構築したいと考えています。私たちはデータ サイエンティストであり、データを調整し、リリースの準備をし、サーバーに投稿する準備ができており、喜んで支援します。私たちは、アクセスメカニズムのオプションについて戦略を立て、他の機関にアドバイスすることができます。私たちは多大な準備をする用意があり、喜んで取り組んでいます。参加に関心のある機関が私たちに連絡をくれるだけで十分です。残りは喜んでやらせていただきます。

また、これらの機関を集めて、どのように協力できるかについて話し合うための春のシンポジウムの開催も計画しています。これは、他のユーザーが自分のデータを世界に公開できるように、できるだけ広範囲に及ぶことを目的としています。私たちは、コミュニティの実践が各機関間で進化し、各機関がそれぞれの使命と目標について情報を得られるようにしようとしています。 AI の勢いは非常に強力であり、正しく利用すれば、世界中の知識機関の使命を実際に拡大することができます。

HLT: AI 企業は現在、公共事業からどのような恩恵を受けていますか? AI企業の取り組みから国民はどのように利益を得るべきでしょうか?

リップ: AI コミュニティ全体は、公的知識機関への歴史的投資から多大な恩恵を受けています。なぜなら、そのデータが AI モデルの基盤の多くを提供するからです。公共事業がなければ、今日見られる先進的なモデルを推進するのに必要な、同レベルの高品質の情報を入手することはできなかっただろう。私たちには、AI が可能な限り広範囲の人類に利益をもたらすことを保証するために、これらの公共投資 (その一部は数世紀前に行われたもの) を利用する機会があります。今は知識の管理に投資するのに最適な時期であり、AI の未来に向けて知識の管理に再投資するのに最適な時期です。


Harvard Law Today の最新情報を入手したいですか?毎週のニュースレターにご登録ください。

出典