OLMoE

ベースモデル

開発者

Allen Institute for AI (AI2)

ライセンス

Apache 2.0

リリース日

2024/9/1

コンテキスト長

4,096 トークン

対応言語

en

officialopen-sourcemoeefficient

Mixture-of-Experts (MoE) アーキテクチャを採用した効率的なモデル。6.9Bの総パラメータ数で1.3Bのみをアクティブに使用し、同等コストのモデルを大幅に上回る性能を実現。64エキスパート、Top-8ルーティング。

HuggingFace 論文 GitHub

技術仕様

アーキテクチャ

Sparse Mixture-of-Experts (64 experts, Top-8)

パラメータバリエーション

OLMoE 1B-7B 0924(6.9B)

HuggingFace

September 2024版。5Tトークンで学習。

MoEアクティブパラメータ: 1.3B

VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0924 Instruct(6.9B)

HuggingFace

September 2024版指示調整モデル。SFT + DPO。

MoEアクティブパラメータ: 1.3B

VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0125(6.9B)

HuggingFace

January 2025版。改良版学習データ。

MoEアクティブパラメータ: 1.3B

VRAM4GB

GGUFファイルは登録されていません

OLMoE 1B-7B 0125 Instruct(6.9B)

HuggingFace

January 2025版指示調整モデル。

MoEアクティブパラメータ: 1.3B

VRAM4GB

GGUFファイルは登録されていません

家系図

現在のモデル: OLMoE

ベース

FT

派生

表示中

OLMoE

技術仕様

アーキテクチャ

パラメータバリエーション

OLMoE 1B-7B 0924(6.9B)

OLMoE 1B-7B 0924 Instruct(6.9B)

OLMoE 1B-7B 0125(6.9B)

OLMoE 1B-7B 0125 Instruct(6.9B)

関連モデル

OLMo 1

OLMo 2

OLMo 3

Molmo

Molmo 2

家系図