Reasoning LLMs

21models · local AI VRAM requirements & GPU compatibility

Reasoning models produce long chains-of-thought before answering, which means higher quality on math, science, and multi-step tasks — but also longer outputs and higher KV-cache VRAM at long contexts. If you're running these locally, prioritize GPUs with more VRAM and high memory bandwidth to sustain token generation through lengthy reasoning traces.

GLM-5.1 754B
Z.ai · 754B params (44B active)
434.0 GB
Q4_K_M
GLM-5 744B
Z.ai · 744B params (40B active)
428.4 GB
Q4_K_M
DeepSeek R1 671B
DeepSeek · 671B params (37B active)
376.3 GB
Q4_K_M
MiniMax M1 456B
MiniMax · 456B params (46B active)
258.4 GB
Q4_K_M
GLM-4.7 358B
Z.ai · 358B params (32B active)
203.9 GB
Q4_K_M
GLM-4.5 355B
Z.ai · 355B params (32B active)
202.3 GB
Q4_K_M
Qwen3 235B-A22B (MoE)
Alibaba · 235B params (22B active)
133.4 GB
Q4_K_M
Qwen 3.5 122B-A10B (MoE)
Alibaba · 122B params (10B active)
70.7 GB
Q4_K_M
fits 80 GB
GPT-OSS 120B
OpenAI · 117B params (5B active)
66.2 GB
Q4_K_M
fits 80 GB
GLM-4.5 Air 106B
Z.ai · 106B params (12B active)
61.1 GB
Q4_K_M
fits 80 GB
DeepSeek R1 Distill Llama 70B
DeepSeek · 70B params
42.2 GB
Q4_K_M
fits 48 GB
Qwen 3.5 35B-A3B (MoE)
Alibaba · 35B params (3B active)
20.5 GB
Q4_K_M
fits 24 GB
Qwen 3.6 35B
Alibaba · 35B params
22.0 GB
Q4_K_M
fits 24 GB
Qwen3 32B
Alibaba · 32.8B params
19.9 GB
Q4_K_M
fits 24 GB
DeepSeek R1 Distill Qwen 32B
DeepSeek · 32.5B params
20.6 GB
Q4_K_M
fits 24 GB
Qwen3 30B-A3B (MoE)
Alibaba · 30B params (3B active)
17.7 GB
Q4_K_M
fits 24 GB
Qwen 3.6 27B
Alibaba · 27B params
16.9 GB
Q4_K_M
fits 24 GB
GPT-OSS 20B
OpenAI · 21B params (4B active)
12.2 GB
Q4_K_M
fits 16 GB
Qwen3 14B
Alibaba · 14.8B params
9.8 GB
Q4_K_M
fits 12 GB
DeepSeek R1 Distill Llama 8B
DeepSeek · 8B params
5.7 GB
Q4_K_M
fits 8 GB
Qwen3 8B
Alibaba · 8B params
5.8 GB
Q4_K_M
fits 8 GB

Want to check your specific GPU? Use the homepage calculator to see which of these models fit your hardware with estimated tokens per second.