CogVLM
ベースモデル開発者Zhipu AI / Tsinghua UniversityライセンスApache 2.0 + Model Licenseリリース日2023/10/1コンテキスト長2,048 トークン対応言語zh, en officialmultimodalvision
Visual Expert Moduleを導入した強力なVision-Language Model。言語能力を損なわずに深い視覚-言語融合を実現。15のクロスモーダルベンチマークでSOTA。NeurIPS 2024に採択。
技術仕様
アーキテクチャ
EVA-CLIP Vision Encoder + Visual Expert Module
パラメータバリエーション
ビジョン10B + 言語7B構成。490×490解像度対応。
MoEアクティブパラメータ: 17B
VRAM9.5GB
GGUFファイルは登録されていません
対話版。マルチターン画像対話に対応。
GGUFファイルは登録されていません
Visual Grounding特化版。物体検出・位置指定に最適化。
GGUFファイルは登録されていません
家系図
現在のモデル: CogVLM
Press enter or space to select a node. You can then use the arrow keys to move the node around. Press delete to remove it and escape to cancel.
Press enter or space to select an edge. You can then press delete to remove it or escape to cancel.