「たとえば、有害な情報は、無害な見た目のコンテンツの壁に有害な要求を埋めたり、架空のロールプレイで有害な要求を偽装したり、明らかな代替を使用したりするなど、無害な要求に隠されている可能性があります」と、そのようなラッパーは部分的に読みます。
出力側では、特別に訓練された分類器が、応答の特定のトークン(つまり、単語)の特定のシーケンスが許可されていないコンテンツについて議論している可能性を計算します。この計算は、各トークンが生成されると繰り返され、結果が特定のしきい値を上回ると出力ストリームが停止します。
今、それはあなた次第です
8月以来、人類は、ハッケロンを通じてバグバウンティプログラムを実行しており、この憲法上の分類器に10の禁止された質問のセットに答えることができる「ユニバーサル脱獄」を設計できる人に15,000ドルを提供しています。同社によると、183人の専門家が合計3,000時間以上を費やしてまさにそれを行おうとし、10の禁止されたプロンプトのうち5つだけで使用可能な情報を提供する最良の結果が得られています。
人類はまた、Claude LLMによって合成された10,000のジェイルブレイクプロンプトのセットに対してモデルをテストしました。憲法上の分類器は、保護されていないクロードシステムのわずか14%と比較して、これらの試みの95%を首尾よくブロックしました。
これらの成功にもかかわらず、人類は、憲法上の分類器システムには23.7%の大幅な計算オーバーヘッドが搭載されており、各クエリの価格とエネルギーの両方の要求が増加していると警告しています。また、分類器システムは、保護されていないクロードよりも無害なプロンプトの追加の0.38%に答えることを拒否しました。
人類は、その新しいシステムがすべての刑務所に対して絶対確実なシステムを提供していると主張することに程遠い。しかし、「セーフガードがいつ使用されているかを発見するためにはるかに多くの努力が必要である」と「脱獄のわずかな割合でも」。そして、新しい脱獄技術は将来発見され、発見されるが、「分類器を訓練するために使用されていた憲法は、発見されたように新しい攻撃をカバーするために迅速に適応できる」という人類は主張している。
今のところ、人類は憲法上の分類器システムに十分に自信があり、広範な敵対的なテストのためにそれを開くことができます。 2月10日まで、Claudeユーザーはできます テストサイトにアクセスしてください そして、化学兵器に関する8つの質問への回答を得るために、新しい保護を突破するために彼らの手を試してください。人類は、このテスト中に新たに発見された脱獄を発表すると言います。 Godspeed、新しい赤いチーム。