Granite Vision 3.2
ベースモデルofficialmultimodalvisiondocument
ドキュメント理解特化のVision Language Model。85Mドキュメントページと26M合成QAペアで学習(DocFM)。DocVQA、ChartQA、OCRBenchでLlama 3.2 11B/Pixtral 12B相当の性能を2Bで達成。
技術仕様
アーキテクチャ
Vision Language Model
パラメータバリエーション
Granite Vision 3.2 2B(2B)
HuggingFace表・チャート・図表・インフォグラフィック解析に最適化。5倍大きいモデルと同等性能。
VRAM1.5GB
GGUFファイルは登録されていません
関連モデル
家系図
現在のモデル: Granite Vision 3.2