フェイスオープンソースの世界最小のビジョン言語モデルを抱き締める

Hugging Face Inc.今日、オープンソースのSmolvlm-256M、そのカテゴリで最も低いパラメーター数を持つ新しいビジョン言語モデル。

アルゴリズムの小さなフットプリントにより、処理能力が比較的限られている消費者ラップトップなどのデバイスで実行できます。抱き合った顔によると、ブラウザでも実行される可能性があります。後者の機能は、AIを搭載したWebアプリケーションがユーザーのコンピューターでグラフィックカードを使用できるようにするテクノロジーであるWebGPUに対するモデルのサポートによって促進されます。

Smolvlm-256Mは、視覚データの処理を伴うさまざまなタスクに役立ちます。スキャンされたドキュメントに関する質問に答えたり、ビデオを説明したり、チャートを説明したりできます。 Hugging Faceは、ユーザープロンプトに基づいて出力をカスタマイズできるモデルのバージョンも開発しました。

フードの下では、Smolvlm-256Mには2億5600万のパラメーターがあります。これは、最も先進的な基礎モデルに含まれる数億のパラメーターのごく一部です。モデルのパラメーターカウントが低いほど、使用するハードウェアが少なくなります。これが、SmolVLM-256Mがラップトップなどのデバイスで実行できる理由です。

このアルゴリズムは、顔を抱きしめることによってリリースされた一連のオープンソースビジョン言語モデルの最新のものです。同社の以前のモデルと比較して、SmolVLM-256Mの主な改善点の1つは、新しいエンコーダーを使用することです。これは、AIをAIをエンコーディングにプロセスすることを課すソフトウェアモジュールであり、ニューラルネットワークがより簡単に動作できる数学構造です。

SMOLVLM-256Mのエンコーダーは、SiglipベースPATCH-16/512と呼ばれるオープンソースAIに基づいています。後者のアルゴリズムは、次に、OpenAIがある画像処理モデルから派生しています リリース 2021年。エンコーダーには9300万のパラメーターが含まれており、Faceの前世代のエンコーダーを抱きしめるパラメーターの数の数が4分の1未満であり、Smolvlm-256Mのハードウェアフットプリントを削減するのに役立ちました。

「ボーナスとして、小さなエンコーダーはより大きな解像度で画像を処理します。これは(AppleとGoogleからの調査ごとに)バルーンパラメーターカウントなしでより良い視覚的理解をもたらすことができます」 ブログ投稿

同社は、以前の世代のビジョン言語モデルの開発に使用したデータセットの改良バージョンでAIを訓練しました。 Smolvlm-256Mの推論スキルを高めるために、顔を抱きしめることは、手書きの数学的表現のコレクションでデータセットを拡大しました。同社はまた、モデルのドキュメントの理解と画像のキャプションスキルを磨くために設計された他の追加を行いました。

内部評価では、抱きしめている顔は、18か月前にリリースされた800億パラメーターを持つマルチモーダルモデルとSmolvlm-256mを比較しました。前者のアルゴリズムは、半ダース以上のベンチマークでより高いスコアを達成しました。ジオメトリの問題を含むMathvistaと呼ばれるベンチマークでは、Smolvlm-256Mのスコアは10%以上高かった。

抱きしめる顔は、5億パラメーターを備えたSmolvlm-500mと呼ばれる2番目のより有能なアルゴリズムとともにモデルを展開しています。ハードウェアの効率を高め、出力品質を高めます。ハグの顔によると、Smolvlm-500mは、ユーザーの指示に従う方が優れています。

「メモリの使用量を低く抑えながらパフォーマンスのヘッドルームが必要な場合は、Smolvlm-500mは500億パラメーターの妥協です」と同社のエンジニアは書いています。

抱きしめる顔があります アップロード 2つのモデルのソースコードは、同名のAIプロジェクトホスティングプラットフォームへのコードです。

画像: 解釈

あなたのサポート投票は私たちにとって重要であり、それは私たちがコンテンツを無料に保つのに役立ちます。

以下のクリックは、無料で深く、関連するコンテンツを提供するというミッションをサポートしています。

YouTubeでコミュニティに参加してください

Amazon.comのCEO、Andy Jassy、Dell Technologiesの創設者兼CEO、Intel CEO Pat Gelsinger、さらに多くの著名人や専門家など、15,000人以上の#CubeAlumniの専門家を含むコミュニティに参加してください。

「TheCubeは業界の重要なパートナーです。あなたたちは本当に私たちのイベントの一部であり、私たちはあなたが来てくれて本当に感謝しています、そして私は人々があなたが作成したコンテンツにも感謝していることを知っています」 – アンディ・ジャッシー

ありがとう

出典