DeepSeekMoE

ベースモデル

開発者

DeepSeek AI

ライセンス

DeepSeek Model License

リリース日

2024/1/11

コンテキスト長

4,096 トークン

対応言語

en, zh

知識カットオフ

2023

officialtext-generationmoeefficient

DeepSeek AIのMixture-of-Experts（MoE）アーキテクチャ実証モデル。2024年1月11日公開。細粒度エキスパート分割と共有エキスパート分離という革新的技術を導入。16Bの総パラメータで約28億のみ活性化し、7B Denseモデルに匹敵する性能を実現。後のV2、V3シリーズの基盤となるアーキテクチャ。

HuggingFace 論文 GitHub

技術仕様

アーキテクチャ

Sparse MoE, Fine-grained expert segmentation, Shared expert isolation, Always-active shared experts + routed experts, Reduced knowledge redundancy

パラメータバリエーション

DeepSeekMoE 16B(16B)

HuggingFace

16.4B総パラメータ、約28億活性化。7B Denseモデル相当の性能を約28億の活性化パラメータで実現。

MoEアクティブパラメータ: 2.8B

VRAM9.5GB

GGUFファイルは登録されていません

DeepSeekMoE 16B Chat(16B)

HuggingFace

16B MoE対話チューニング版。

MoEアクティブパラメータ: 2.8B

VRAM9.5GB

GGUFファイルは登録されていません

家系図

現在のモデル: DeepSeekMoE

ベース

FT

派生

表示中

DeepSeekMoE

技術仕様

アーキテクチャ

パラメータバリエーション

DeepSeekMoE 16B(16B)

DeepSeekMoE 16B Chat(16B)

関連モデル

DeepSeek-LLM

DeepSeek-Coder

DeepSeek-Math

DeepSeek-VL

DeepSeek-V2

DeepSeek-Coder-V2

DeepSeek-Prover

DeepSeek-V2.5

DeepSeek-V3

DeepSeek-VL2

DeepSeek-R1

Janus

DeepSeek-R1-0528

DeepSeek-V3.1

DeepSeek-Prover-V2

DeepSeekMath-V2

DeepSeek-V3.2

家系図