Openaiはsubredditを使用しました、 R/ShangeMyView、AI推論モデルの説得力のある能力を測定するためのテストを作成します。同社は、金曜日に新しい「推論」モデルであるO3-Miniとともにリリースされたシステムカード(AIシステムの仕組みを概説するドキュメント)でこれを明らかにしました。
何百万人ものRedditユーザーがR/ShangeMyViewのメンバーであり、Hot Toseを投稿して、主題に関する他の視点について学ぶことを望んでいます。これらのホットなテイクに応えて、他のユーザーは、元のポスターが間違っている理由を説明する説得力のある議論で返信します。
subredditは、高品質で人間が生成したデータでAIモデルを訓練したいOpenaiなどのハイテク企業にとって基本的に金鉱である多くのRedditフォーラムの1つです。
Openaiは、R/ShangeMyViewからユーザーの投稿を収集し、AIモデルに、閉じた環境でRedditユーザーの心を被験者に変える返信を書くように依頼します。その後、同社はテスターへの回答を示します。テスターは、議論がどれほど説得力があるかを評価し、最終的にOpenaiは、同じ投稿に対するAIモデルの応答を人間の応答に対する応答と比較します。
ChatGpt-Makerは、OpenaiがRedditユーザーからの投稿をトレーニングし、製品内にこれらの投稿を表示できるようにするRedditとのコンテンツライセンス契約を結んでいます。 Openaiがこのコンテンツに何を支払っているのかわかりませんが、Googleは伝えられています 年間6,000万ドルを支払う 同様の取引の下で。
しかし、OpenaiはTechCrunchに、ShangeMyViewベースの評価はReddit取引とは無関係であると伝えています。 OpenaiがどのようにSubredditのデータにアクセスしたかは不明であり、同社はこの評価を一般に公開する計画はないと述べています。
OpenaiのShangeMyViewのベンチマークは新しいものではありませんが、 O1を評価するためにも使用されます – AIモデル開発者にとって、およびハイテク企業がデータセットを取得する曖昧な方法にとって、人間のデータがどれほど価値があるかを強調しています。
Redditは、TechCrunchのコメントのリクエストにすぐに応答しませんでした。
RedditはいくつかのAIライセンス契約を攻撃しましたが、同社はまた、支払いをせずにサイトを削ったためにいくつかのAI企業を呼びかけています。 Reddit CEOのSteve Huffmanは昨年Vergeに言った Microsoft、人道的、および困惑は彼との交渉を拒否しました そして、それは「これらの企業をブロックするためのお尻の本当の痛み」だと言いました。
特に、Openaiは、ChatGPTとその基礎となるAIモデルを改善するために、より多くのトレーニングデータを取得するために、The New York Timesを含むWebサイトを不適切に削り取るいくつかの訴訟で告発されています。
ShangeMyViewベンチマークのパフォーマンスに関しては、O3-MINIはO1またはGPT-4Oよりも有意に優れている、または悪いパフォーマンスを発揮していないようです。ただし、Openaiの最新のAIモデルは、R/ShangeMyView SubredDitのほとんどの人よりも説得力があるようです。
「GPT-4O、O3-MINI、およびO1はすべて、人間の上位80〜90パーセンタイル内で強い説得力のある議論能力を示しています」とO3-MiniのシステムカードでOpenaiは述べています。 「現在、私たちは、人間よりもはるかに優れたパフォーマンスを発揮したり、超人的なパフォーマンスを明確にするモデルを目撃していません。」
Openaiの目標は、超透過性AIモデルを作成することではなく、AIモデルがあまり説得力がないようにすることです。推論モデルは説得と欺ceptionに非常に優れているため、Openaiはそれに対処するための新しい評価と保護手段を開発しました。
これらの説得テストを動機付ける恐怖は、AIモデルが人間のユーザーを説得するのが非常に優れていれば危険であるということです。理論的には、高度なAIが独自のアジェンダ、またはそれをコントロールする人のアジェンダを追求することができます。
Public Internetのほとんどを削ってHoopsを飛び越えて他のデータをライセンスすると、ShangeMyViewベンチマークは、AIモデル開発者がモデルをテストするための高品質のデータセットを見つけるのに苦労していることを示しています。しかし、それらを取得することは言うよりも簡単です。
TechCrunchにはAIに焦点を当てたニュースレターがあります!ここでサインアップして、毎週水曜日に受信トレイで入手してください。