Mixture of Experts LLMs

28models · local AI VRAM requirements & GPU compatibility

Mixture of Experts (MoE) models have a large total parameter count but only activate a fraction per token. This means you need enough VRAM to load all the weights, but inference speed is determined by the active parameter count — often dramatically faster than a dense model of equivalent quality. The trade-off: MoE models can be hard to fit on a single GPU.

DeepSeek V4 Pro 1.6T
DeepSeek · 1600B params (49B active)
897.1 GB
Q4_K_M
Kimi K2.6
Moonshot AI · 1000B params (32B active)
563.0 GB
Q4_K_M
GLM-5.1 754B
Z.ai · 754B params (44B active)
434.0 GB
Q4_K_M
GLM-5 744B
Z.ai · 744B params (40B active)
428.4 GB
Q4_K_M
DeepSeek V3 671B
DeepSeek · 671B params (37B active)
376.3 GB
Q4_K_M
DeepSeek R1 671B
DeepSeek · 671B params (37B active)
376.3 GB
Q4_K_M
MiniMax M1 456B
MiniMax · 456B params (46B active)
258.4 GB
Q4_K_M
Llama 4 Maverick 400B
Meta · 400B params (17B active)
228.5 GB
Q4_K_M
GLM-4.7 358B
Z.ai · 358B params (32B active)
203.9 GB
Q4_K_M
GLM-4.5 355B
Z.ai · 355B params (32B active)
202.3 GB
Q4_K_M
GLM-4.6 355B
Z.ai · 355B params (32B active)
202.3 GB
Q4_K_M
DeepSeek V4 Flash 284B
DeepSeek · 284B params (13B active)
159.8 GB
Q4_K_M
Qwen3 235B-A22B (MoE)
Alibaba · 235B params (22B active)
133.4 GB
Q4_K_M
MiniMax M2.5 229B
MiniMax · 229B params (10B active)
130.6 GB
Q4_K_M
MiniMax M2.7 229B
MiniMax · 229B params (10B active)
130.6 GB
Q4_K_M
Mixtral 8x22B Instruct v0.1
Mistral AI · 141B params (39B active)
81.1 GB
Q4_K_M
Qwen 3.5 122B-A10B (MoE)
Alibaba · 122B params (10B active)
70.7 GB
Q4_K_M
fits 80 GB
Nemotron 3 Super 120B
NVIDIA · 120B params (12B active)
68.0 GB
Q4_K_M
fits 80 GB
GPT-OSS 120B
OpenAI · 117B params (5B active)
66.2 GB
Q4_K_M
fits 80 GB
Llama 4 Scout 109B
Meta · 109B params (17B active)
64.0 GB
Q4_K_M
fits 80 GB
GLM-4.5 Air 106B
Z.ai · 106B params (12B active)
61.1 GB
Q4_K_M
fits 80 GB
GLM-4.6V 106B
Z.ai · 106B params (12B active)
61.1 GB
Q4_K_M
fits 80 GB
Mixtral 8x7B Instruct v0.1
Mistral AI · 46.7B params (12.9B active)
27.4 GB
Q4_K_M
fits 48 GB
Qwen 3.5 35B-A3B (MoE)
Alibaba · 35B params (3B active)
20.5 GB
Q4_K_M
fits 24 GB
Nemotron 3 Nano 30B
NVIDIA · 32B params (3B active)
18.4 GB
Q4_K_M
fits 24 GB
Qwen3 30B-A3B (MoE)
Alibaba · 30B params (3B active)
17.7 GB
Q4_K_M
fits 24 GB
Gemma 4 26B (MoE)
Google · 26B params (3.8B active)
16.1 GB
Q4_K_M
fits 24 GB
GPT-OSS 20B
OpenAI · 21B params (4B active)
12.2 GB
Q4_K_M
fits 16 GB

Want to check your specific GPU? Use the homepage calculator to see which of these models fit your hardware with estimated tokens per second.