Molmo
ベースモデルofficialopen-sourcemultimodalvision
AI2初の完全オープンマルチモーダルモデル。オープンなPixMoデータセットで学習し、プロプライエタリモデルへの依存なしにGPT-4Vに匹敵する性能を達成。画像のポインティング機能が特徴。
技術仕様
アーキテクチャ
Vision-Language Model (OpenAI CLIP ViT-L/14-336px + LLM)
パラメータバリエーション
家系図
現在のモデル: Molmo
AI2初の完全オープンマルチモーダルモデル。オープンなPixMoデータセットで学習し、プロプライエタリモデルへの依存なしにGPT-4Vに匹敵する性能を達成。画像のポインティング機能が特徴。
Vision-Language Model (OpenAI CLIP ViT-L/14-336px + LLM)
現在のモデル: Molmo