Molmo 2

ベースモデル
開発者
Allen Institute for AI (AI2)
ライセンス
Apache 2.0
リリース日
2025/12/16
コンテキスト長
40,960 トークン
対応言語
en
officialopen-sourcemultimodalvisionvideo

ビデオ理解、マルチ画像推論、オブジェクトトラッキングに対応した次世代VLM。GPT-5やGemini 2.5 Proを上回る性能を一部タスクで達成。SigLIP 2ビジョンエンコーダ採用。最大128フレームのビデオ処理。

技術仕様

アーキテクチャ

Vision-Language Model (SigLIP 2 + LLM)

パラメータバリエーション

Molmo 2 4B(4B)

HuggingFace

効率重視版。Qwen3ベース。

GGUFファイルは登録されていません

Molmo 2 8B(8B)

HuggingFace

ビデオグラウンディング・QA最適化版。Qwen3ベース。

GGUFファイルは登録されていません

Molmo 2-O 7B(7B)

HuggingFace

完全オープン版。OLMoベースでエンドツーエンドオープン。

GGUFファイルは登録されていません

家系図

現在のモデル: Molmo 2