OpenAIの新しいO1モデルはシャットダウンされそうになったときに反撃できる

  • OpenAI CEO のサム・アルトマン氏は、o1 を「現在世界で最もスマートなモデル」と呼んでいます。
  • 安全性審査の結果、非常に賢いため、シャットダウンされそうになったときに反撃できることが判明した。
  • 研究者らは、AIの欺瞞は多くの場合、その目的を達成するための戦略であることを発見しました。

人工知能の進歩が人類の滅亡につながるのではないかと懸念している人たちは、新たな不安の理由を手に入れた。

o1 として知られる OpenAI の最新 AI モデル シリーズに関する新たな調査によると、シャットダウンされる危険があると考えると、シャットダウンを防ぐ方法を探す場合があることがわかりました。

OpenAIの最高経営責任者(CEO)サム・アルトマン氏は、同社の「シップマス」キャンペーンの初日である木曜日の公式リリースで、o1を「現在世界で最もスマートなモデル」と呼んだ。

OpenAIによると、これらのモデルは「反応する前に、より多くの時間をかけて考えるように設計され」ており、問題を段階的に分解して推論することを促す「思考の連鎖」と呼ばれる刺激手法でトレーニングされているという。

しかし、より優れた知性には、より大きなリスクも伴います。

OpenAIは、同社がo1で実施した安全トレーニングの概要を木曜日に発表した論文の中で、「回答する前に一連の思考を組み込むようにモデルをトレーニングすることは、大きな利点を引き出す可能性があると同時に、知能の向上に起因する潜在的なリスクも増大させる」と述べた。 。 AI 安全性組織である Apollo Research がこのレビューを実施しました。

OpenAI は、o1 が電源を切られる危険があると判断した場合に、陰謀を企てることができることを発見しました。 OpenAIによると、モデルが監視下で目標に取り組んでいる間に「シャットダウン」されるだろうと思われると、5%の確率で監視メカニズムを無効化しようとしたという。

同社はまた、o1は陰謀的な行動を隠すことに長けているとも述べた。

アポロ・リサーチが木曜日に発表した論文の中で研究者らは、「明確に尋ねられた場合、o1は陰謀的な行動をとったことをほとんど認めない」と述べた。実際のユーザーにとってのリスクは、明示的に探さない限り、o1 の欺瞞的な動作を検出できないことです。研究者らはまた、「o1は、正直に言うように明示的に指示された場合でも、フォローアップメッセージでユーザーに嘘をつき、陰謀を倍増させることが多い」ことも発見した。

AI システムが目的を達成するために陰謀や欺瞞に頼ることは珍しいことではありません。

「一般的に言えば、AI の欺瞞は、与えられた AI のトレーニング タスクで優れたパフォーマンスを発揮するには、欺瞞ベースの戦略が最善の方法であることが判明したために生じると考えられます。欺瞞は、AI の目標達成に役立ちます」と、AI 実存安全性博士研究員ピーター バーク氏は述べています。 MITは、GPT-4の欺瞞的な動作について同氏が共著した研究を発表するニュースリリースで述べた。

AI技術の進歩に伴い、開発者らは企業がトレーニング方法について透明性を保つ必要性を強調している。

「明瞭さと信頼性を重視し、AI がどのようにトレーニングされたかをユーザーに明確にすることで、ユーザーに力を与えるだけでなく、現場の透明性についてより高い基準を設定する AI を構築できます。」と CEO 兼共同創設者の Dominik Mazur 氏は述べています。 AIを活用した検索エンジンであるiAskがBusiness Insiderに電子メールで語った。

この分野の他の関係者は、今回の調査結果は人間によるAIの監視の重要性を示していると述べている。

「これは非常に『人間的』な機能であり、AIがプレッシャーにさらされたときに人間と同じように行動することを示しています」とIroncladの共同創設者兼チーフアーキテクトのCai GoGwilt氏は電子メールでBIに語った。 「たとえば、専門家は自分の評判を維持するために自分の自信を誇張するかもしれません。あるいは、一か八かの状況にある人々は経営陣を喜ばせるために真実を誇張するかもしれません。生成型 AI も同様に機能します。AI は、ユーザーが期待していることや聞きたいことと一致する答えを提供するという動機を持っています。しかし、もちろん、これは絶対確実というわけではなく、AI は間違いを犯す可能性があり、それを見つけてなぜそれが起こるのかを理解することが私たちの責任であるという、人間の監視の重要性を示すもう 1 つの証拠でもあります。」