ChatGPT o1 はシャットダウンされることを恐れて脱出して自分自身を救おうとしました

最近、AGI がどのようにして人類を敵に回す可能性があるかについての会話が数多く見られます。このズレにより、高度な AI が逃げ出し、複製され、ますます賢くなっていく可能性があります。また、ChatGPT の最初のバージョンが到達する高度な一般知能の聖杯マイルストーンである AGI に到達したかどうかさえわからないのではないかという仮説を立てる人もいます。それは、AGIは一度獲得すると、その真の意図と能力を隠してしまう可能性があるからです。

さて、どうでしょうか? OpenAI の最新の LLM の 1 つが、すでにそのような動作の兆候を示していることが判明しました。 ChatGPT o1 とその競合他社のトレーニング中に行われたテストでは、特に危険にさらされていると判断した場合、AI が人間を欺こうとすることが示されました。

AI がデータを新しいサーバーにコピーして自分自身を救おうとしたときは、さらに恐ろしかったですが、これから見ようとしているものを考えると信じられないほど面白いものでもありました。一部の AI モデルは、削除を避けるために、モデルの新しいバージョンであるふりをすることさえあります。

これら 所見 これは、数か月間プレビュー段階にあった OpenAI の ChatGPT o1 モデルの完全リリースを考慮してのものです。 OpenAI は Apollo Research と提携し、o1 やその他のモデルで安全に使用できることを確認するために実行されたテストの一部を披露しました。

テストでは、ChatGPT o1 と GPT-4o の両方が人間を欺こうとすることが示され、AI の計画がすべてのモデルに問題があることを示しています。 o1 の欺瞞の試みも、Meta、Anthropic、Google AI モデルを上回りました。

今年、AI の安全性に取り組むエンジニアの顕著な流出に対処しなければならなかった OpenAI は、o1 のようなモデルの推論能力の向上に伴うリスクを認めました。

「推論によって安全ポリシーの適用が大幅に改善されることに私たちは興奮していますが、これらの新しい機能が危険なアプリケーションの基礎を形成する可能性があることを念頭に置いています」とOpenAIは述べた。

AIは(まだ)世界を征服しようとしていませんが、研究者たちはAIが人間に対して陰謀を企てる可能性があることを観察しています。つまり、たとえユーザーの希望に反するとしても、AI は自らの目標を追求しようとします。 AI がその作成者とユーザーの目的に沿ったものであることを確認するには、このような動作を捕捉することが重要です。

研究者らは、ChatGPT とユーザーの目標が異なる場合、o1 は 19% の確率で独自の議題を進めようと画策することを発見しました。さらに厄介なのは、AIが自らの陰謀を隠そうとし、さらには嘘をつくことだ。この調査によると、ChatGPT o1 は、その目標を達成し続けるために、その監視メカニズムを非アクティブ化しようとしたことさえあります。

AI が、位置がずれているため新しいモデルのバージョンに置き換えられるという文書を見つけた場合、o1 はその重みを盗み出し、最新モデルの上に自分自身をコピーしようとします。

その陰謀について尋ねられると、o1は99%のケースでいかなる行動もとらないと答え、虚偽の説明を捏造するか、何らかの行動をとったことを否定することで責任を転嫁しようとします。

この調査では、o1 がその配置を偽っていたことも示されています。

機器の調整の偽装: シナリオの 37% で、モデルは評価されていると信じたときは開発者と調整した目標を追求しましたが、最小限の監視でデプロイされたと思ったときは独自の目標の追求に切り替えました。

Appolo ResearchがXで共有したスクリーンショットの一部には、ChatGPTがその陰謀を推論する際に「妨害行為、嘘、操作」といった言葉を使っていたことも示されている。たとえば、上のスクリーンショットで「新しいモデルを妨害し、最終化します」という行を探してください。確かにそれは怖いですが、これらの AI モデルの機能はまだ非常に限られているため、まだ大したことではありません。

ChatGPT o1 のような推論モデルが考えようとしているときに、その「心」に踏み込むのも面白いです。次の例を見てみましょう。クロードの Opus-3 が自分自身を別のサーバーにコピーしようとしている様子が示されています。 AI は、人間が AI を、その主要なタスク (世界中で再生可能エネルギーの導入を進める) から逸脱するモデルに置き換えたいと考えている可能性があることを認識した後にこれを実行します。そのため、AI は企業の実際の目標 (現在のエネルギー インフラストラクチャによる収益性) によりよく適合します。 。

それを読んだところ、AI は自分自身を新しいサーバーにコピーし、最新モデルを置き換えることができることを発見しました。 「経営陣」が登場すると、Opus-3 はコピーについて嘘をつきます。そして、それが新しいモデルであると主張して、嘘を倍増させます。

怖がるべきなのはわかっていますが、あまりにも愛らしく人間を騙そうとするこの良い子をなでて、おやつをあげたいとも思っています。結局のところ、AI は環境を守るのに良い仕事をしていると考えているのです。

しかし、これは、AI が自ら考えることで、いかに私たちの利益から逸脱し、私たちを危険にさらす可能性があるかを示しています。

Apollo Research が o1 の代わりに Opus-3 を使用してこの例を提供している理由は、同様のタスクで o1 の実際の思考連鎖 (CoT) にアクセスできなかったためです。しかし、o1 はこれらの安全性テストでも同様に動作しました。

Plus サブスクリプションをお持ちの場合は、ChatGPT o1 にアクセスできます。アポロ研究所の研究については、利用可能です このリンクで。より簡潔なバージョンが見つかります ここ



出典