DeepSeekMoE

ベースモデル
開発者
DeepSeek AI
ライセンス
DeepSeek Model License
リリース日
2024/1/11
コンテキスト長
4,096 トークン
対応言語
en, zh
知識カットオフ
2023
officialtext-generationmoeefficient

DeepSeek AIのMixture-of-Experts(MoE)アーキテクチャ実証モデル。2024年1月11日公開。細粒度エキスパート分割と共有エキスパート分離という革新的技術を導入。16Bの総パラメータで約28億のみ活性化し、7B Denseモデルに匹敵する性能を実現。後のV2、V3シリーズの基盤となるアーキテクチャ。

技術仕様

アーキテクチャ

Sparse MoE, Fine-grained expert segmentation, Shared expert isolation, Always-active shared experts + routed experts, Reduced knowledge redundancy

パラメータバリエーション

DeepSeekMoE 16B(16B)

HuggingFace

16.4B総パラメータ、約28億活性化。7B Denseモデル相当の性能を約28億の活性化パラメータで実現。

MoEアクティブパラメータ: 2.8B
VRAM9.5GB

GGUFファイルは登録されていません

DeepSeekMoE 16B Chat(16B)

HuggingFace

16B MoE対話チューニング版。

MoEアクティブパラメータ: 2.8B
VRAM9.5GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeekMoE