Google、PaliGemma 2 ビジョン言語 AI モデルを導入

から

12月 5, 2024

Google は、PaliGemma ビジョン言語モデルの新しいファミリーを導入し、スケーラブルなパフォーマンス、長いキャプション、特殊なタスクのサポートを提供します。

PaliGemma 2 は 12月5日に発表、Gemma ファミリーの最初のビジョン言語モデルとして初期バージョンが発売されてからほぼ 7 か月後。 Google によると、Gemma 2 をベースに構築された PaliGemma 2 モデルは、視覚的な入力を見て、理解し、対話することができます。

PaliGemma 2により、開発者はより洗練されたビジョン言語機能をアプリに簡単に追加できるとGoogleは述べた。また、画像内の感情や動作の識別など、より高度なキャプション機能も可能になります。 PaliGemma 2 のスケーラブルなパフォーマンス機能により、複数のモデルサイズ (3B、10B、28B パラメーター) と解像度 (224px、448px、896px) を介してあらゆるタスクに対してパフォーマンスを最適化できます。 Googleによると、PaliGemma 2の長いキャプションは、画像の文脈に応じた詳細なキャプションを生成し、単純なオブジェクトの識別を超えて、アクション、感情、シーンの全体的な物語を説明します。

出典

Google、PaliGemma 2 ビジョン言語 AI モデルを導入

最新ニュース

ボビー・バーク、ハリウッドヒルズのモダンな住宅を250万ドルで売却

Take It From Me: 新しい電話番号は絶対に取得しないでください、それは技術上の悪夢です

ドロミテで行方不明の英国人を捜索していた警察、初のハイカーの遺体発見で新たな発見

ニール・ドグラース・タイソン曰く、科学的に最も正確ではないSF映画

パークシティ、ベイルのスキーパトロール員はリゾートタウンに住む余裕がない

恐怖の雪崩でスキーヤー3人が9,000フィートの山から数百メートル引きずり込まれ死亡

カテゴリ