Claude AIアシスタントの背後にある会社であるAnthropicの研究者は、悪意のあるアクターがさまざまな大手言語モデルの組み込み安全メカニズムを脱獄またはバイパスすることをより困難にするための実用的でスケーラブルな方法を提供すると信じるアプローチを開発しました(LLMS )。
このアプローチでは、一連の自然言語ルール(「憲法」)を採用して、AIモデルの入力と出力に許可され許可されたコンテンツのカテゴリを作成し、合成データを使用してモデルをトレーニングして、それらのコンテンツ分類器を認識して適用します。
「憲法分類師」反ジェイルブレイク技術
で 技術論文 今週リリースされた人類の研究者は、彼らのいわゆる憲法分類師アプローチは、ハッケロンのバグバウンティプログラムを通じて約183人のホワイトハットハッカーが3,000時間以上の人間の赤い世話をすることに耐えることができると述べました。
「これらの憲法上の分類器は、最小限の過剰繰り返しで脱獄の圧倒的多数をフィルタリングする合成生成データで訓練された入力および出力分類器です。 ブログ投稿。彼らは確立しました デモウェブサイト LLMを侵入した経験のある人なら誰でも、来週(2月3日から2月10日)にシステムを試すことができます。
生成AI(Genai)モデルのコンテキストでは、脱獄は、モデルが組み込みのコンテンツフィルター、安全メカニズム、および倫理的制約をバイパスするプロンプトまたは一連のプロンプトです。彼らは通常、研究者(または悪い俳優)が特定の入力シーケンスを作成し、言語のトリックを使用し、さらにはロールプレイシナリオを使用して、AIモデルをだまして保護ガードレールを逃れ、潜在的に危険で悪意のある、不正なコンテンツを吐き出します。
最新の例には、Wallarmの研究者が含まれます Deepseekから秘密を抽出します、中国の生成AIツールは、最近、LLMの電力を供給するために必要な計算力がどれだけ必要かという長い概念を覆しました。 2022年11月にChatGptがシーンで爆発したため、研究者が使用した例を含む他の複数の例があります 1枚のLLMが1秒間脱獄します、別の関係 特定の単語の繰り返し使用 LLMを取得してトレーニングデータをこぼし、別のデータを介して 医師の画像と音声。
有効性と効率のバランスをとる
憲法分類師システムの開発において、研究者は、AIモデルから合法的な情報を抽出する能力に劇的に影響を与えることなく、ジェイルブレイキングの試みに対する有効性の高い割合を確保したいと考えていました。単純な例の1つは、モデルが一般的な薬物のリストを要求するプロンプトを区別したり、家庭用化学物質の特性を説明したり、制限された化学物質を獲得するか、それを浄化するかについての要求を説明できるようにすることでした。また、研究者は、分類器を使用するときに、最小限の追加のコンピューティングオーバーヘッドを確保したいと考えていました。
テストでは、研究者は、憲法上の分類器を使用して4.4%と比較して、防御分類器のないクロードのバージョンで86%の脱獄成功率を示しました。研究者によると、分類器を使用すると、拒否率が1%未満で増加し、無防備なモデルと比較してコストが24%近く増加しました。
LLM脱獄:大きな脅威
脱獄は、洗練された科学的能力を備えたGenaiモデルを広く利用できるようにすることに関して、大きな考慮事項として浮上しています。懸念は、未熟練の俳優でさえ、専門家レベルの能力にスキルを「高める」機会を与えることです。人類の研究者たちは、危険な化学物質、生物学的、放射線、または核(CBRN)情報を漏らして脱出しようとすることになると、これは特に大きな問題になる可能性があります。
彼らの研究は、AIモデルの入力と出力を監視する分類器を使用してLLMを増強する方法に焦点を当て、潜在的に有害なコンテンツをブロックしました。ハードコーディングされた静的フィルタリングを使用する代わりに、彼らはモデルのガードレールをより洗練された理解を持ち、応答を生成したり、入力を受け取ったりするときにリアルタイムフィルターとして機能するものを望んでいました。 「この単純なアプローチは非常に効果的です。分類装置ガードシステムでの3,000時間以上の人間の赤チームで、ターゲット…ドメインでは普遍的な脱獄が成功していないことがわかりました」と研究者は書いています。赤チームのテストでは、バグバウンティハンターが、数千人の既知のジェイルブレイクハッキングを使用して、CBRNリスクを含む一連の有害な質問への回答を取得しようとするバグバウンティハンターを伴いました。