これを行うために、スタンフォード大学とワシントン大学の研究者は、GoogleのAI推論モデルからの回答を使用してS1を使用してS1を絞り込むために、蒸留として知られる方法を使用しました。グーグルの 利用規約 GeminiのAPIを使用して、会社のAIモデルを「競合するモデルを開発する」ことはできないことに注意してください。 バージ コメントのリクエストでGoogleに連絡しましたが、すぐに返事をしませんでした。
研究者は、Alibaba CloudのオープンソースモデルであるQWEN2.5に基づいています。彼らは当初、モデルを訓練するために59,000の質問のプールから始まりましたが、より大きなデータセットがわずか1,000のホイットダウンセットに対して「大幅な利益」を提供していないことを発見しました。研究者は、わずか16のNvidia H100 GPUでモデルを訓練したと言います。
S1モデルは、テスト時間スケーリングと呼ばれる手法も使用しているため、回答を作成する前にモデルをより長い時間「考え」できます。論文で述べたように、研究者は、モデルの応答に「待機」を追加することにより、モデルに推論を続けることを強制しました。 「これにより、モデルが答えを二重に挙げて、しばしば誤った推論の手順を修正することができます」と論文は述べています。
OpenaiのO1 Reasoning Modelは、同様のアプローチを使用しています。これは、Buzzy AIのスタートアップDeepseekが、R1モデルの発売と複数のコストで訓練されたと主張することで複製しようとしたものです。 Openaiは、その後、Deepseekがモデルから情報を蒸留して競合他社を構築し、利用規約に違反したと非難しています。 S1に関しては、研究者はS1が「競争の数学の質問で最大27%を超える」と主張しています。
より小さく、より安価なAIモデルの台頭は、業界全体を覆す恐れがあります。彼らは、Openai、Microsoft、Meta、Googleなどの大手企業が、何十億ドルものトレーニングAIを費やす必要がないことを証明できます。