今年の初めに、Microsoft は小規模言語モデルの Phi-3 ファミリを導入しました。今日、マイクロソフトは、 紹介された Phi-4 は、MATH および GPQA AI ベンチマークで OpenAI の GPT-4 大型言語モデルをも上回る 14B パラメーターの最先端の小型言語モデル (SLM) です。
Microsoft は、数学関連の推論における Phi-4 の優れたパフォーマンスは、高品質の合成データセットの使用、高品質の有機データのキュレーション、およびトレーニング後の改善によるものであると主張しています。トレーニング用の合成データは、マルチエージェント プロンプト、自己改訂ワークフロー、指示反転などのいくつかの手法を使用して生成され、生成された合成データは Phi-4 のトレーニング データの大部分を構成します。 Microsoft は、トレーニング後のプロセス中にモデルの出力を改良するために、拒否サンプリングなどの手法も使用しました。
で Phi-4 技術論文Microsoftはまた、Web経由でのベンチマークテストセットの漏洩に関する懸念にも対処した。 Microsoft は、評価結果に不当な影響が及ばないように、Phi-4 のデータ除染プロセスを改善しました。これを確認するために、Microsoft は、Microsoft のトレーニング データが収集された後に開催された 2024 年 11 月の AMC-10 および AMC-12 数学コンテストで Phi-4 モデルをテストしました。
下の画像でわかるように、Phi-4 は、同様のサイズまたはオープンウェイトのモデルだけでなく、Gemini 1.5 Pro などのより大型のフロンティア モデルよりも優れたパフォーマンスを発揮します。このテストを通じて、Microsoft は、MATH ベンチマークにおける Phi-4 のトップレベルのパフォーマンスはオーバーフィッティングや汚染によるものではないと主張しています。
Phi-4 には依然としてそのサイズによる基本的な制限があるため、弱点もあります。事実の知識を中心に幻覚を起こし、詳細な指示に厳密に従うのが苦手です。モデルの安全性を評価するために、Phi-4 チームはマイクロソフトの独立系 AI レッド チーム (AIRT) と協力して、平均的なユーザー シナリオと敵対的なユーザー シナリオの両方で Phi-4 によってもたらされる安全性とセキュリティのリスクを特定しました。
Phi-4 は現在、以下で利用可能です Azure AI ファウンドリ Microsoft Research ライセンス契約 (MSRLA) に基づいて。 Microsoft は来週、Hugging Face で Phi-4 もリリースする予定です。