Frontier LLMs

24models · local AI VRAM requirements & GPU compatibility

Frontier models push the boundary of open-weight AI capability. They typically require a multi-GPU server or extreme-tier workstation — but when they fit, they rival the best proprietary APIs. Check the compatible GPU list carefully; most of these require 80 GB+ of VRAM across multiple cards.

DeepSeek V4 Pro 1.6T
DeepSeek · 1600B params (49B active)
897.1 GB
Q4_K_M
Kimi K2.6
Moonshot AI · 1000B params (32B active)
563.0 GB
Q4_K_M
GLM-5.1 754B
Z.ai · 754B params (44B active)
434.0 GB
Q4_K_M
GLM-5 744B
Z.ai · 744B params (40B active)
428.4 GB
Q4_K_M
DeepSeek V3 671B
DeepSeek · 671B params (37B active)
376.3 GB
Q4_K_M
DeepSeek R1 671B
DeepSeek · 671B params (37B active)
376.3 GB
Q4_K_M
MiniMax M1 456B
MiniMax · 456B params (46B active)
258.4 GB
Q4_K_M
Llama 3.1 405B Instruct
Meta · 405B params
231.5 GB
Q4_K_M
Llama 4 Maverick 400B
Meta · 400B params (17B active)
228.5 GB
Q4_K_M
GLM-4.7 358B
Z.ai · 358B params (32B active)
203.9 GB
Q4_K_M
GLM-4.5 355B
Z.ai · 355B params (32B active)
202.3 GB
Q4_K_M
GLM-4.6 355B
Z.ai · 355B params (32B active)
202.3 GB
Q4_K_M
DeepSeek V4 Flash 284B
DeepSeek · 284B params (13B active)
159.8 GB
Q4_K_M
Qwen3 235B-A22B (MoE)
Alibaba · 235B params (22B active)
133.4 GB
Q4_K_M
MiniMax M2.5 229B
MiniMax · 229B params (10B active)
130.6 GB
Q4_K_M
MiniMax M2.7 229B
MiniMax · 229B params (10B active)
130.6 GB
Q4_K_M
Qwen 3.5 122B-A10B (MoE)
Alibaba · 122B params (10B active)
70.7 GB
Q4_K_M
fits 80 GB
Nemotron 3 Super 120B
NVIDIA · 120B params (12B active)
68.0 GB
Q4_K_M
fits 80 GB
GPT-OSS 120B
OpenAI · 117B params (5B active)
66.2 GB
Q4_K_M
fits 80 GB
Llama 4 Scout 109B
Meta · 109B params (17B active)
64.0 GB
Q4_K_M
fits 80 GB
GLM-4.5 Air 106B
Z.ai · 106B params (12B active)
61.1 GB
Q4_K_M
fits 80 GB
GLM-4.6V 106B
Z.ai · 106B params (12B active)
61.1 GB
Q4_K_M
fits 80 GB
Nemotron 3 Nano 30B
NVIDIA · 32B params (3B active)
18.4 GB
Q4_K_M
fits 24 GB
GPT-OSS 20B
OpenAI · 21B params (4B active)
12.2 GB
Q4_K_M
fits 16 GB

Want to check your specific GPU? Use the homepage calculator to see which of these models fit your hardware with estimated tokens per second.