日次および週次のニュースレターに参加して、最新の更新情報や業界をリードする AI に関する独占コンテンツを入手してください。もっと詳しく知る
革新的なオープンソース テクノロジーで大手 AI ベンダーに挑戦することで知られる中国の AI スタートアップ DeepSeek は、本日、新しい超大型モデル DeepSeek-V3 をリリースしました。
経由で入手可能 ハグフェイス 同社のライセンス契約に基づき、新しいモデルには 671B パラメータが付属していますが、特定のタスクを正確かつ効率的に処理するために、専門家混合アーキテクチャを使用して選択されたパラメータのみをアクティブにします。 DeepSeek が共有したベンチマークによると、この製品はすでにチャートのトップに立っており、Meta の Llama 3.1-405B などの主要なオープンソース モデルを上回り、Anthropic や OpenAI のクローズド モデルのパフォーマンスに匹敵します。
このリリースは、クローズド AI とオープンソース AI の間のギャップを埋める新たな大きな開発を示しています。結局のところ、中国のクオンツヘッジファンドの派生としてスタートしたディープシークは、 ハイフライヤー・キャピタル・マネジメントは、これらの開発が汎用人工知能 (AGI) への道を切り開き、人間が可能なあらゆる知的作業をモデルが理解または学習できるようになることを期待しています。
DeepSeek-V3 は何をもたらしますか?
前世代の DeepSeek-V2 と同様に、新しい超大型モデルは、次の点を中心とした同じ基本アーキテクチャを使用しています。 マルチヘッド潜在的注意 (MLA) そして DeepSeekMoE。このアプローチにより、各トークンの 671B のうち 370B のパラメータをアクティブ化する専門的かつ共有された「専門家」(大規模モデル内の個別の小規模ニューラル ネットワーク)により、効率的なトレーニングと推論が維持されます。
基本アーキテクチャは DeepSeek-V3 の堅牢なパフォーマンスを保証しますが、同社はさらに基準を押し上げる 2 つのイノベーションも導入しました。
1 つ目は、補助損失のない負荷分散戦略です。これにより、エキスパートの負荷が動的に監視および調整され、モデル全体のパフォーマンスを損なうことなくバランスの取れた方法でエキスパートを利用できるようになります。 2 つ目はマルチトークン予測 (MTP) で、モデルが複数の将来のトークンを同時に予測できるようになります。この革新により、トレーニング効率が向上するだけでなく、モデルの実行速度が 3 倍向上し、1 秒あたり 60 個のトークンが生成されます。
「事前トレーニング中に、14.8Tの高品質で多様なトークンでDeepSeek-V3をトレーニングしました…次に、DeepSeek-V3の2段階のコンテキスト長拡張を実施しました」と同社は文書で書いている。 技術論文 新しいモデルの詳細を説明します。 「第 1 段階では最大コンテキスト長が 32K に拡張され、第 2 段階ではさらに 128K に拡張されます。これに続いて、DeepSeek-V3 の基本モデルに対して教師あり微調整 (SFT) や強化学習 (RL) などの事後トレーニングを実施し、人間の好みに合わせてその可能性をさらに引き出しました。トレーニング後の段階では、DeepSeekR1 シリーズのモデルから推論機能を抽出し、同時にモデルの精度と生成の長さのバランスを注意深く維持します。」
特に、トレーニング段階で、DeepSeek はプロセスのコストを削減するために、FP8 混合精度トレーニング フレームワークやパイプライン並列処理用の DualPipe アルゴリズムなど、複数のハードウェアとアルゴリズムの最適化を使用しました。
全体として、GPU 時間あたり 2 ドルのレンタル価格を想定して、約 2788,000 H800 GPU 時間、つまり約 557 万ドルで DeepSeek-V3 のトレーニング全体を完了したと主張しています。これは、大規模な言語モデルの事前トレーニングに通常費やされる数億ドルよりもはるかに低いです。
例えば、ラマ-3.1は5億ドル以上の投資をかけて訓練されたと推定されている。
現在利用可能な最強のオープンソース モデル
経済的なトレーニングにもかかわらず、DeepSeek-V3 は市場で最も強力なオープンソース モデルとして浮上しました。
同社は AI のパフォーマンスを比較するために複数のベンチマークを実行し、Llama-3.1-405B や Qwen 2.5-72B などの主要なオープン モデルよりも確実に優れていることに注目しました。英語に焦点を当てた SimpleQA と FRAMES を除く、ほとんどのベンチマークでクローズド ソースの GPT-4o よりも優れたパフォーマンスを示します。これらのベンチマークでは、OpenAI モデルがそれぞれ 38.2 と 80.5 (対 24.9 と 73.3) のスコアで優位に立っています。
特に、DeepSeek-V3 のパフォーマンスは中国語と数学中心のベンチマークで際立っていて、他のすべてのベンチマークよりも優れたスコアを獲得しました。 Math-500 テストでは 90.2 点を獲得し、次に最高点は Qwen の 80 点でした。
DeepSeek-V3 に対抗できた唯一のモデルは Anthropic の Claude 3.5 Sonnet で、MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified、および Aider-Edit で高いスコアを獲得し、DeepSeek-V3 を上回りました。
この研究は、オープンソースがクローズドソース モデルに近づいており、さまざまなタスクにわたってほぼ同等のパフォーマンスを約束していることを示しています。このようなシステムの開発は、1 人の大手 AI プレーヤーがゲームを支配する可能性を排除する可能性があるため、業界にとって非常に良いことです。また、企業はスタックをオーケストレーションする際に、複数のオプションから選択して操作できるようになります。
現在、DeepSeek-V3 のコードは以下から入手できます。 GitHub モデルは会社のモデル ライセンスに基づいて提供されていますが、MIT ライセンスに基づいて提供されています。企業は、次の方法で新しいモデルをテストすることもできます。 ディープシークチャット、ChatGPT のようなプラットフォームを使用し、商用目的で API にアクセスします。 DeepSeek は次の場所で API を提供しています。 DeepSeek-V2と同じ価格 2 月 8 日まで。それ以降は、入力トークン 100 万個あたり 0.27 ドル (キャッシュ ヒットの場合はトークン 100 万個あたり 0.07 ドル)、出力トークン 100 万個あたり 1.10 ドルが請求されます。
出典