Google は、PaliGemma ビジョン言語モデルの新しいファミリーを導入し、スケーラブルなパフォーマンス、長いキャプション、特殊なタスクのサポートを提供します。
PaliGemma 2 は 12月5日に発表、Gemma ファミリーの最初のビジョン言語モデルとして初期バージョンが発売されてからほぼ 7 か月後。 Google によると、Gemma 2 をベースに構築された PaliGemma 2 モデルは、視覚的な入力を見て、理解し、対話することができます。
PaliGemma 2により、開発者はより洗練されたビジョン言語機能をアプリに簡単に追加できるとGoogleは述べた。また、画像内の感情や動作の識別など、より高度なキャプション機能も可能になります。 PaliGemma 2 のスケーラブルなパフォーマンス機能により、複数のモデル サイズ (3B、10B、28B パラメーター) と解像度 (224px、448px、896px) を介してあらゆるタスクに対してパフォーマンスを最適化できます。 Googleによると、PaliGemma 2の長いキャプションは、画像の文脈に応じた詳細なキャプションを生成し、単純なオブジェクトの識別を超えて、アクション、感情、シーンの全体的な物語を説明します。