Molmo 2

ベースモデル

開発者

Allen Institute for AI (AI2)

ライセンス

Apache 2.0

リリース日

2025/12/16

コンテキスト長

40,960 トークン

対応言語

en

officialopen-sourcemultimodalvisionvideo

ビデオ理解、マルチ画像推論、オブジェクトトラッキングに対応した次世代VLM。GPT-5やGemini 2.5 Proを上回る性能を一部タスクで達成。SigLIP 2ビジョンエンコーダ採用。最大128フレームのビデオ処理。

HuggingFace 論文

技術仕様

アーキテクチャ

Vision-Language Model (SigLIP 2 + LLM)

パラメータバリエーション

Molmo 2 4B(4B)

HuggingFace

効率重視版。Qwen3ベース。

VRAM2.5GB

ベースモデルqwen3

GGUFファイルは登録されていません

Molmo 2 8B(8B)

HuggingFace

ビデオグラウンディング・QA最適化版。Qwen3ベース。

VRAM4.5GB

ベースモデルqwen3

GGUFファイルは登録されていません

Molmo 2-O 7B(7B)

HuggingFace

完全オープン版。OLMoベースでエンドツーエンドオープン。

VRAM4GB

ベースモデルolmo-3

GGUFファイルは登録されていません

家系図

現在のモデル: Molmo 2

ベース

FT

派生

表示中

Molmo 2

技術仕様

アーキテクチャ

パラメータバリエーション

Molmo 2 4B(4B)

Molmo 2 8B(8B)

Molmo 2-O 7B(7B)

関連モデル

OLMo 1

OLMo 2

OLMo 3

OLMoE

Molmo

家系図