日次および週次のニュースレターに参加して、最新の更新情報や業界をリードする AI に関する独占コンテンツを入手してください。もっと詳しく知る
OpenAI o1 の最近のリリースは、大規模推論モデル (LRM) に大きな注目を集め、古典的な言語モデルがしばしば苦労する複雑な問題の解決を目的とした新しいモデルを生み出しています。 o1 の成功と LRM の概念に基づいて、アリババの研究者は以下を導入しました。 マルコ-o1、推論能力を強化し、明確な基準や定量化可能な報酬が存在しない無制限のソリューションで問題に取り組みます。
OpenAI o1 は、「推論時間スケーリング」を使用して、モデルに「考える時間」を与えることでモデルの推論能力を向上させます。基本的に、モデルは推論中により多くの計算サイクルを使用して、より多くのトークンを生成し、その応答をレビューします。これにより、推論が必要なタスクのパフォーマンスが向上します。 o1 は、特に数学、物理学、コーディングなどの標準的な答えを持つタスクにおいて、その優れた推論能力で知られています。
ただし、多くのアプリケーションには、明確な解決策や定量的な報酬が欠けている、終わりのない問題が含まれています。 「私たちはLLMの限界をさらに押し広げ、複雑な現実世界の課題に取り組むための推論能力を強化することを目指しました」とアリババの研究者は書いている。
Marco-o1 は、思考連鎖 (CoT) の微調整などの高度な技術を統合した Alibaba の Qwen2-7B-Instruct の微調整バージョンです。 モンテカルロツリー検索 (MCTS) および推論アクション戦略。
研究者らは、以下を含むデータセットの組み合わせで Marco-o1 をトレーニングしました。 オープン-O1 CoT データセット。 Marco-o1 CoT データセット、MCTS を使用して生成された合成データセット。 Marco-o1 命令データセットは、推論タスク用のカスタム命令に従うデータのコレクションです。
MCTS は、複雑な問題解決シナリオで効果的であることが証明されている検索アルゴリズムです。可能性を繰り返しサンプリングし、結果をシミュレーションし、デシジョン ツリーを段階的に構築することで、さまざまな解決策の道筋をインテリジェントに探索します。囲碁に勝つなど、複雑な AI の問題に非常に効果的であることが証明されています。
Marco-o1 は、MCTS を利用して、応答トークンを生成する際に複数の推論パスを探索します。このモデルは、候補応答トークンの信頼スコアを使用してデシジョン ツリーを構築し、さまざまな分岐を探索します。これにより、特にオープンエンドのソリューションを含むシナリオにおいて、モデルはより広範囲の可能性を考慮し、より多くの情報に基づいた微妙な結論に達することができます。研究者らはまた、ツリー内の各ノードで生成されるトークンの数を定義することで MCTS ステップの粒度を調整できる柔軟な推論アクション戦略も導入しました。これにより、精度と計算コストの間のトレードオフが実現され、ユーザーはパフォーマンスと効率のバランスをとる柔軟性が得られます。
Marco-o1 のもう 1 つの重要な革新は、リフレクション メカニズムの導入です。推論プロセス中に、モデルは定期的に「待ってください!」というフレーズで自分自身を促します。たぶん私はいくつかの間違いを犯したでしょう!一から考え直さなければなりません。」これにより、モデルは推論ステップを再評価し、潜在的なエラーを特定し、思考プロセスを改良します。
「このアプローチにより、モデルはそれ自体の批評家として機能し、その推論における潜在的な誤りを特定できるようになります」と研究者らは書いている。 「モデルに最初の結論に疑問を持たせることを明示的に促すことで、モデルが思考プロセスを再表現し洗練することを奨励します。」
Marco-o1 のパフォーマンスを評価するために、研究者らは、小学校の多言語問題のデータセットである MGSM ベンチマークを含むいくつかのタスクに関する実験を実施しました。 Marco-o1 は、特に MCTS コンポーネントが単一トークンの粒度に調整された場合に、ベースの Qwen2-7B モデルを大幅に上回りました。
ただし、Marco-o1 の主な目的は、オープンエンド シナリオにおける推論の課題に対処することでした。この目的を達成するために、研究者らは、言語、文化、文脈の微妙なニュアンスを理解する必要があるタスクである口語表現と俗語表現の翻訳に関するモデルをテストしました。実験の結果、Marco-o1 は従来の翻訳ツールよりも効果的にこれらの表現をキャプチャして翻訳できることがわかりました。たとえば、モデルは、文字通り「この靴はうんこを踏む感覚を提供します」を意味する中国語の口語表現を、「この靴は快適なソールを持っています」という同等の英語に正確に翻訳しました。モデルの推論チェーンは、モデルがさまざまな潜在的な意味をどのように評価し、正しい翻訳に到達するかを示します。
このパラダイムは、深い文脈の理解を必要とし、明確に定義されたベンチマークや指標がない製品設計や戦略などのタスクに役立つことが証明されています。
推論モデルの新たな波
o1 のリリース以来、AI ラボは推論モデルのリリースを競っています。先週、中国の AI ラボ DeepSeek は、o1 の競合製品である R1-Lite-Preview をリリースしました。これは現在、同社のオンライン チャット インターフェイスを通じてのみ利用可能です。 R1-Lite-Preview は、いくつかの主要なベンチマークで o1 を上回っていると報告されています。
オープンソース コミュニティもプライベート モデル市場に追いつき、推論時間のスケーリングの法則を利用するモデルとデータセットをリリースしています。アリババチームがリリース マルコ-o1 ハグフェイスと一緒に 部分推論データセット 研究者はこれを使用して独自の推論モデルをトレーニングできます。最近リリースされたもう 1 つのモデルは、中国の複数の大学の研究者によって開発された LLaVA-o1 です。これは、オープンソースのビジョン言語モデル (VLM) に推論時間推論パラダイムをもたらします。
これらのモデルのリリースは、モデル スケーリング法の将来に関する不確実性の中で行われました。さまざまなレポートでは、大規模なモデルのトレーニングによる利益が減少しており、壁にぶつかっている可能性があることが示されています。しかし確かなことは、私たちは推論時間のスケーリングの可能性を模索し始めたばかりだということです。
出典