OLMoE
ベースモデルofficialopen-sourcemoeefficient
Mixture-of-Experts (MoE) アーキテクチャを採用した効率的なモデル。6.9Bの総パラメータ数で1.3Bのみをアクティブに使用し、同等コストのモデルを大幅に上回る性能を実現。64エキスパート、Top-8ルーティング。
技術仕様
アーキテクチャ
Sparse Mixture-of-Experts (64 experts, Top-8)
パラメータバリエーション
OLMoE 1B-7B 0924(6.9B)
HuggingFaceSeptember 2024版。5Tトークンで学習。
MoEアクティブパラメータ: 1.3B
VRAM4GB
GGUFファイルは登録されていません
OLMoE 1B-7B 0924 Instruct(6.9B)
HuggingFaceSeptember 2024版指示調整モデル。SFT + DPO。
MoEアクティブパラメータ: 1.3B
VRAM4GB
GGUFファイルは登録されていません
OLMoE 1B-7B 0125(6.9B)
HuggingFaceJanuary 2025版。改良版学習データ。
MoEアクティブパラメータ: 1.3B
VRAM4GB
GGUFファイルは登録されていません
OLMoE 1B-7B 0125 Instruct(6.9B)
HuggingFaceJanuary 2025版指示調整モデル。
MoEアクティブパラメータ: 1.3B
VRAM4GB
GGUFファイルは登録されていません
家系図
現在のモデル: OLMoE