General-Purpose LLMs

27models · local AI VRAM requirements & GPU compatibility

General-purpose models strike a balance across chat, instruction-following, coding, and reasoning tasks. They're the most versatile choice for local AI and are tested across a broad set of benchmarks. If you're not sure which model to run, start here.

Llama 4 Scout 109B
Meta · 109B params (17B active)
77.4 GB
Q4_K_M
fits 80 GB
Qwen 2.5 72B Instruct
Alibaba · 72B params
52.1 GB
Q4_K_M
fits 80 GB
Llama 3.3 70B Instruct
Meta · 70B params
50.8 GB
Q4_K_M
fits 80 GB
Llama 3.1 70B Instruct
Meta · 70B params
50.8 GB
Q4_K_M
fits 80 GB
Qwen 3.6 35B
Alibaba · 35B params
26.3 GB
Q4_K_M
fits 48 GB
Yi 1.5 34B Chat
01.AI · 34.4B params
25.7 GB
Q4_K_M
fits 48 GB
Qwen3 32B
Alibaba · 32.8B params
23.9 GB
Q4_K_M
fits 24 GB
Qwen 2.5 32B Instruct
Alibaba · 32.5B params
24.6 GB
Q4_K_M
fits 48 GB
Gemma 4 31B
Google · 31B params
24.8 GB
Q4_K_M
fits 48 GB
Gemma 2 27B Instruct
Google · 27.2B params
22.0 GB
Q4_K_M
fits 24 GB
Gemma 3 27B Instruct
Google · 27B params
20.1 GB
Q4_K_M
fits 24 GB
Qwen 3.6 27B
Alibaba · 27B params
20.2 GB
Q4_K_M
fits 24 GB
Gemma 4 26B (MoE)
Google · 26B params (3.8B active)
19.3 GB
Q4_K_M
fits 24 GB
Mistral Small 3.1 24B Instruct
Mistral AI · 24B params
17.9 GB
Q4_K_M
fits 24 GB
Mistral Small 22B
Mistral AI · 22.2B params
17.2 GB
Q4_K_M
fits 24 GB
Qwen3 14B
Alibaba · 14.8B params
11.6 GB
Q4_K_M
fits 12 GB
Qwen 2.5 14B Instruct
Alibaba · 14.7B params
11.8 GB
Q4_K_M
fits 12 GB
Phi-4 14B Instruct
Microsoft · 14B params
11.1 GB
Q4_K_M
fits 12 GB
Mistral Nemo 12B Instruct
Mistral AI · 12.2B params
9.8 GB
Q4_K_M
fits 12 GB
Gemma 3 12B Instruct
Google · 12.2B params
9.5 GB
Q4_K_M
fits 12 GB
Gemma 4 12B (Unified)
Google · 12B params
11.8 GB
Q4_K_M
fits 12 GB
Gemma 2 9B Instruct
Google · 9.2B params
9.4 GB
Q4_K_M
fits 12 GB
Llama 3.1 8B Instruct
Meta · 8B params
6.7 GB
Q4_K_M
fits 8 GB
Qwen3 8B
Alibaba · 8B params
6.8 GB
Q4_K_M
fits 8 GB
Qwen 2.5 7B Instruct
Alibaba · 7.6B params
5.7 GB
Q4_K_M
fits 8 GB
Mistral 7B Instruct v0.3
Mistral AI · 7.25B params
6.1 GB
Q4_K_M
fits 8 GB
Gemma 3 4B Instruct
Google · 4B params
3.3 GB
Q4_K_M
fits 8 GB

Want to check your specific GPU? Use the homepage calculator to see which of these models fit your hardware with estimated tokens per second.