研究者は、OpenaiのO1の理由を分析するために、低コストのオープンソースAIモデルを作成します

スタンフォード大学とワシントン大学の研究者は、OpenAIのO1モデルに匹敵するオープンソース人工知能(AI)モデルを開発しました。研究者の主な目的は、強力な推論に焦点を当てたモデルを作成することではなく、サンフランシスコに拠点を置くAI企業がTest Timeスケーリングを実行するようにO1シリーズモデルにどのように指示したかを理解することでした。特に、研究者は方法論を紹介し、モデルの動作を非常に低コストで複製することができ、はるかに少ないコンピューティングリソースを使用しました。

研究者はS1-32B AIモデルを開発します

研究者は、モデルを開発する方法論とプロセスを詳述しました 勉強 プリプリントジャーナルArxivに掲載されています。このプロセスには、異なるAIモデルから合成データセットを作成し、アブレーションや監視付き微調整(SFT)などのいくつかの新しい手法を使用することが含まれていました。モデルはGitHubで利用できます リスト

AIモデルはゼロから構築されていないことに注意する必要があります。開発者は、QWEN2.5-32B-Instructを使用し、それを蒸留してS1-32Bの大手言語モデル(LLM)を作成しました。 2024年9月にリリースされたこのモデルは能力がありますが、そのサイズと推論機能の欠如を考えると、OpenaiのO1に合わせることはできません。

プロセス中、研究者はGemini Flash Thinkingアプリケーション処理インターフェイス(API)を使用して、推論のトレースと応答を生成しました。合計59,000の質問、推論の痕跡(思考の連鎖またはCOT)、および回答がAPIから抽出されました。次に、S1Kと呼ばれるデータセットが、1,000の高品質、多様な、困難な質問、および推論のトレースと応答を選択することにより作成されました。

S1Kデータセットを作成した後、研究者はQWEN2.5-32B-Instructモデルで監視された微調整を実行しました。このために、基本的な微調整ハイパーパラメーターが使用されました。蒸留プロセスは、16 NVIDIA H100 GPUで26分間のトレーニングを受けました。

この時点まで、研究者たちは、オープンがモデルをどのように訓練して「思考」し、どのように思考プロセスを止めることができたかを知りませんでした。これがないと、モデルは、貴重な処理能力を無駄にする出力を2番目に推測するため、無期限に考え直されるリスクを実行します。

モデルを微調整している間、研究者は何か面白いものを見つけました。彼らは、追加することによって推論時間を操作できることを発見しました そして XMLタグ。モデルがエンドタグに到達すると、最終的な答えのために、その音声を権威あるトーンに変更するように言われます。特に、推論時間は、典型的なAIモデルが生成するほぼリアルタイム応答です。これ以上には、コードの慎重な操作が必要です。

S1-32Bモデルを使用すると、研究者は「待機」コマンドを追加して、通常の推論期間を超えて考えるように強制しました。追加されると、モデルは2番目の推測とその出力の検証を開始しました。次に、タグを使用して、このテスト時間スケーリングフェーズを短くするか、延長しました。

その後、研究者はまた、「代替」や「うーん」などの他のいくつかのフレーズを実験しましたが、「待機」タグを使用するときに最高のパフォーマンスメトリックが達成されたことがわかりました。モデルをO1のパフォーマンスに近づけることにより、研究者は、これがOpenAIが推論モデルを微調整するために使用する方法である可能性があると主張します。

TechCrunch 報告 研究者は、50ドル(約Rs。4,380)未満のS1-32B AIモデルを作成できたと主張しており、推論モデルのためにトレーニング後の構造を作成することは非常に低コストで実行できることを強調しています。

出典