DeepSeek-VL2

ファインチューニング
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/12/13
コンテキスト長
4,096 トークン
対応言語
en, zh
知識カットオフ
2024-Q4
ベースモデル
deepseek-v2
officialvisionmultimodalmoeocrdocument-understanding

DeepSeek AIの第2世代Vision-Language MoEモデル。2024年12月13日公開。384x384基本解像度で動的タイリング対応。Tiny(3.37B/1.0B活性化)、Small(16.1B/2.8B活性化)、フル(27.5B/4.5B活性化)の3サイズ展開。OCR、文書理解、チャート分析に強い。

ベンチマーク

mmstar-tiny
45.9
ocrbench-tiny
809
docvqa-tiny
88.9
chartqa-tiny
81
mathvista-tiny
53.6

ソース: https://arxiv.org/abs/2412.10302

技術仕様

アーキテクチャ

Vision-Language MoE, 384x384 base resolution, Dynamic tiling

パラメータバリエーション

DeepSeek-VL2-Tiny(3.37B)

HuggingFace

3.37B総パラメータ、1.0B活性化の軽量版。MMStar 45.9、OCRBench 809達成。

MoEアクティブパラメータ: 1.0B
VRAM2GB

GGUFファイルは登録されていません

DeepSeek-VL2-Small(16.1B)

HuggingFace

16.1B総パラメータ、2.8B活性化の中型版。

MoEアクティブパラメータ: 2.8B
VRAM9GB

GGUFファイルは登録されていません

DeepSeek-VL2(27.5B)

HuggingFace

27.5B総パラメータ、4.5B活性化のフルサイズ版。

MoEアクティブパラメータ: 4.5B
VRAM15GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeek-VL2