DeepSeek の新しい AI モデルは、これまでで最高の「オープン」チャレンジャーの 1 つであると思われる

中国の研究所が、これまでで最も強力な「オープン」AI モデルの 1 つと思われるものを作成しました。

モデルは、 ディープシーク V3はAI企業DeepSeekによって開発され、商用アプリケーションを含むほとんどのアプリケーションに対して開発者がダウンロードして変更できる寛容なライセンスの下で水曜日にリリースされた。

DeepSeek V3 は、コーディング、翻訳、エッセイや電子メールの作成など、説明的なプロンプトからのさまざまなテキストベースのワークロードとタスクを処理できます。

DeepSeek の内部ベンチマーク テストによると、DeepSeek V3 は、ダウンロード可能な「オープン」に利用可能なモデルと、API 経由でのみアクセスできる「クローズド」AI モデルの両方を上回っています。プログラミング コンテストのプラットフォームである Codeforces で主催されるコーディング コンテストの一部では、DeepSeek は Meta の Llama 3.1 405B、OpenAI の GPT-4o、Alibaba の Qwen 2.5 72B などの他のモデルを上回っています。

また、DeepSeek V3 は、モデルが既存のコードに統合する新しいコードを正常に記述できるかどうかなどを測定するために設計されたテストである Aider Polyglot での競合にも打ち勝ちます。

DeepSeek は、DeepSeek V3 は 14.8 兆トークンのデータセットでトレーニングされたと主張しています。データ サイエンスでは、トークンは生データのビットを表すために使用されます。100 万のトークンは約 750,000 ワードに相当します。

膨大なのはトレーニングセットだけではありません。 DeepSeek V3 のサイズは膨大で、パラメータは 6,850 億です。 (パラメーターは、モデルが予測や決定を行うために使用する内部変数です。)これは、4,050 億個のパラメーターを持つ Llama 3.1 405B のサイズの約 1.6 倍です。

パラメータ数は多くの場合 (常にではありませんが) スキルと相関します。パラメーターが多いモデルは、パラメーターが少ないモデルよりもパフォーマンスが高い傾向があります。ただし、大型モデルを実行するには、より強力なハードウェアも必要です。 DeepSeek V3 の最適化されていないバージョンでは、適切な速度で質問に答えるために、一連のハイエンド GPU が必要になります。

DeepSeek V3 は最も実用的なモデルではありませんが、いくつかの点で成果を上げています。 DeepSeek は、Nvidia H800 GPU (中国企業が最近使用した GPU) のデータセンターを使用してモデルをトレーニングすることができました。 制限付き 米国商務省による調達。同社はまた、DeepSeek V3のトレーニングに費やしたのは550万ドルのみで、OpenAIのGPT-4などのモデルの開発コストのほんの一部であると主張している。

欠点は、モデルの政治的見解が少しフィルターされていることです。たとえば、DeepSeek V3 に天安門広場について質問しても、答えはありません。

画像クレジット:ディープシーク

DeepSeek は中国企業であるため、以下の対象となります。 ベンチマーク 中国のインターネット規制当局は、モデルの応答が「社会主義の核心的価値観を体現している」ことを保証するために規制を行っている。 多くの 中国の AI システムは、規制当局の怒りを買う可能性のある話題、たとえば、 習近平 政権。

最近、OpenAI の o1 「推論」モデルに対する回答である DeepSeek-R1 を発表した DeepSeek は、興味深い組織です。これは、AIを使用して取引の決定を通知する中国のクオンツヘッジファンドであるハイフライヤーキャピタルマネジメントによって支援されています。

DeepSeek のモデルにより、ByteDance、Baidu、Alibaba などの競合企業は、一部のモデルの使用価格を値下げし、他のモデルは完全に無料にすることを余儀なくされました。

High-Flyer はモデル トレーニング用に独自のサーバー クラスターを構築しており、そのうちの 1 つは最新のものです。 伝えられるところによると には 10,000 個の Nvidia A100 GPU が搭載されており、価格は 10 億円 (約 1 億 3,800 万ドル) です。コンピューター サイエンスを卒業した Liang Wenfeng によって設立された High-Flyer は、DeepSeek 組織を通じて「超インテリジェント」AI の実現を目指しています。

インタビュー 今年初め、梁氏はオープンソースを「文化的行為」と表現し、OpenAIのようなクローズドソースAIは「一時的な」堀であると特徴づけた。 「OpenAI のクローズドソースアプローチでさえ、他社の追いつきを止めていない」と彼は指摘した。

確かに。


TechCrunch には AI に焦点を当てたニュースレターがあります。 ここから登録してください 毎週水曜日に受信箱に届きます。




出典