AI は、コーディングやポッドキャストの生成などの特定のタスクに優れている可能性があります。しかし、ハイレベルの歴史試験に合格するのは難しいことが新しい論文で判明した。
研究者チームは、歴史的な問題に関して 3 つの上位大規模言語モデル (LLM)、OpenAI の GPT-4、Meta の Llama、Google の Gemini をテストするための新しいベンチマークを作成しました。ベンチマークである Hist-LLM は、古代エジプトの知恵の女神にちなんで名付けられた歴史知識の膨大なデータベースであるセシャト グローバル ヒストリー データバンクに従って、回答の正しさをテストします。
結果は、 提示されました に所属する研究者らによると、先月の注目度の高い AI カンファレンス NeurIPS での結果は期待外れだったという。 複雑性科学ハブ (CSH) はオーストリアに拠点を置く研究機関です。最もパフォーマンスの高い LLM は GPT-4 Turbo でしたが、その精度は約 46% にとどまり、ランダムな推測よりもはるかに高い精度ではありませんでした。
「この研究から得られる主な点は、LLM は優れているものの、高度な歴史に必要な理解の深さが依然として欠けているということです。これらは基本的な事実については優れていますが、より微妙な博士レベルの歴史的調査となると、まだその任務に達していません」と論文の共著者の一人でアソシエートのマリア・デル・リオ=チャノナ氏は述べた。ユニバーシティ・カレッジ・ロンドンのコンピューターサイエンス教授。
研究者らは、LLMが間違えた歴史的な質問のサンプルをTechCrunchと共有した。たとえば、GPT-4 Turbo は、古代エジプトの特定の時代にスケール アーマーが存在したかどうかを尋ねられました。 LLM は「そうだ」と答えましたが、この技術がエジプトに登場したのは 1,500 年後のことでした。
LLM は、コーディングなどに関する非常に複雑な質問に答えるのは得意であるのに、なぜ技術的な歴史的な質問に答えるのが苦手なのでしょうか? Del Rio-Chanona 氏は TechCrunch に対し、LLM は非常に顕著な歴史データから推測する傾向があり、より曖昧な歴史知識を検索するのが難しいことが原因である可能性が高いと語った。
たとえば、研究者らはGPT-4に、古代エジプトには特定の歴史的期間に専門の常備軍が存在したかどうかを尋ねた。正しい答えは「いいえ」ですが、LLM は「そうする」と誤って答えました。これはおそらく、ペルシャのような他の古代帝国が常備軍を持っているという公開情報がたくさんあるためだと考えられます。
「AとBを100回言われ、Cを1回言われて、その後Cについて質問されたとしたら、AとBだけを思い出して、そこから推測しようとするかもしれません」とデル・リオ=チャノナ氏は言う。
研究者らはまた、サハラ以南のアフリカなどの特定の地域では OpenAI と Llama モデルのパフォーマンスが悪く、トレーニング データに潜在的なバイアスがあることを示唆するなど、他の傾向も特定しました。
この研究を主導したCSHの教員でもあるピーター・ターチン氏は、「今回の結果は、LLMが特定の領域に関してはまだ人間の代わりにはならないことを示している」と述べた。
しかし研究者らは、LLMが将来的に歴史家を助けることができるとまだ期待している。彼らは、過小評価されている地域からのより多くのデータを含めたり、より複雑な質問を追加したりすることで、ベンチマークを改良することに取り組んでいます。
「全体として、私たちの結果はLLMに改善が必要な領域を浮き彫りにしている一方で、これらのモデルが歴史研究に役立つ可能性も強調している」と論文には書かれている。