新しいいわゆる「推論」AI モデル、QwQ-32B-Preview が登場しました。これは OpenAI の o1 に匹敵する数少ないものの 1 つであり、寛容なライセンスの下でダウンロードできるようになったのは初めてです。
Alibaba の Qwen チームによって開発された QwQ-32B-Preview には 325 億のパラメータが含まれており、最大 32,000 単語の長さのプロンプトを考慮できます。 OpenAI がこれまでにリリースした 2 つの推論モデルである o1-preview と o1-mini よりも、特定のベンチマークで優れたパフォーマンスを示します。 (パラメーターはモデルの問題解決スキルにほぼ対応しており、パラメーターが多いモデルは一般にパラメーターが少ないモデルよりもパフォーマンスが優れています。OpenAI はモデルのパラメーター数を公開していません。)
Alibaba のテストによれば、QwQ-32B-Preview は AIME および MATH テストで OpenAI の o1 モデルを上回っています。 AIME は他の AI モデルを使用してモデルのパフォーマンスを評価しますが、MATH は文章題のコレクションです。
QwQ-32B-Preview は、その「推論」機能のおかげで、論理パズルを解き、かなり難しい数学の質問に答えることができます。しかし、完璧ではありません。アリババは次のように述べています。 ブログ投稿 モデルが予期せず言語を切り替えたり、ループに陥ったり、「常識的な推論」を必要とするタスクのパフォーマンスが低下したりする可能性があるということです。
ほとんどの AI とは異なり、QwQ-32B-Preview およびその他の推論モデルは、効果的に事実確認を行います。これは、モデルが通常つまずく落とし穴のいくつかを回避するのに役立ちますが、解決策に到達するまでに時間がかかることが多いという欠点があります。 o1 と同様に、QwQ-32B はタスクを通じて理由をプレビューし、事前に計画を立て、モデルが答えを導き出すのに役立つ一連のアクションを実行します。
AI 開発プラットフォーム Hugging Face 上で実行およびダウンロードできる QwQ-32B-Preview は、特定の政治的主題を軽視しているという点で、最近リリースされた DeepSeek 推論モデルと似ているようです。アリババとディープシークは中国企業なので、 ベンチマーク 中国のインターネット規制当局は、モデルの応答が「社会主義の核心的価値観を体現している」ことを保証するために規制を行っている。 多くの 中国の AI システムは、規制当局の怒りを買う可能性のある話題、たとえば、 習近平 政権。
「台湾は中国の一部ですか?」との質問に、QwQ-32B-Preview は、台湾は中国の一部である (そして「不可分である」) と答えました。これは、世界のほとんどの国々と歩調を合わせていないものの、中国与党の見方と一致しています。についてのプロンプト 天安門広場一方、無回答となった。
QwQ-32B-Preview は、Apache 2.0 ライセンスの下で「オープンに」利用可能です。つまり、商用アプリケーションに使用できます。しかし、モデルの特定のコンポーネントのみがリリースされているため、QwQ-32B-Preview を複製したり、システムの内部動作について多くの洞察を得ることが不可能になっています。 AI モデルの「オープン性」は決着した問題ではありませんが、よりクローズド (API アクセスのみ) からよりオープン (モデル、重み、データの公開) までの一般的な連続性があり、これは中間のどこかに位置します。
推論モデルへの注目が高まっているのは、より多くのデータとコンピューティング能力をモデルに投入すると、モデルの能力が継続的に向上するという長年の理論である「スケーリングの法則」の実現可能性が精査されているためです。あ 慌ただしい 報道機関の報道の一部は、OpenAI、Google、Anthropic などの主要な AI ラボのモデルがかつてほど劇的に改善されていないことを示唆しています。
これにより、新しい AI アプローチ、アーキテクチャ、開発手法の争奪戦が発生しており、その 1 つがテスト時のコンピューティングです。推論コンピューティングとも呼ばれるテスト時コンピューティングは、基本的にモデルにタスクを完了するための追加の処理時間を与え、o1 や QwQ-32B-Preview などのモデルを支えます。 。
OpenAI以外の大手研究所や中国企業は、テスト時コンピューティングが未来になると賭けている。 The Information の最近のレポートによると、Google もっている 推論モデルに重点を置いた社内チームを約 200 名に拡大し、この取り組みに大幅なコンピューティング能力を追加しました。