OLMoE

ベースモデル
開発者
Allen Institute for AI (AI2)
ライセンス
Apache 2.0
リリース日
2024/9/1
コンテキスト長
4,096 トークン
対応言語
en
officialopen-sourcemoeefficient

Mixture-of-Experts (MoE) アーキテクチャを採用した効率的なモデル。6.9Bの総パラメータ数で1.3Bのみをアクティブに使用し、同等コストのモデルを大幅に上回る性能を実現。64エキスパート、Top-8ルーティング。

技術仕様

アーキテクチャ

Sparse Mixture-of-Experts (64 experts, Top-8)

パラメータバリエーション

OLMoE 1B-7B 0924(6.9B)

HuggingFace

September 2024版。5Tトークンで学習。

MoEアクティブパラメータ: 1.3B
VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0924 Instruct(6.9B)

HuggingFace

September 2024版指示調整モデル。SFT + DPO。

MoEアクティブパラメータ: 1.3B
VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0125(6.9B)

HuggingFace

January 2025版。改良版学習データ。

MoEアクティブパラメータ: 1.3B
VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0125 Instruct(6.9B)

HuggingFace

January 2025版指示調整モデル。

MoEアクティブパラメータ: 1.3B
VRAM4GB

GGUFファイルは登録されていません

家系図

現在のモデル: OLMoE