LLM VRAM Calculator

配置模型参数

快速预设（十亿参数量）

模型参数量（十亿，B）

精度 / 量化格式

上下文长度（tokens）

批处理大小（Batch Size）

运行模式

📖 LLM 显存知识

运行大型语言模型（LLM）时，显存（VRAM）是最关键的硬件资源。显存不足会导致模型无法加载或运行速度极慢（需要 CPU 内存卸载）。

显存组成部分

组成	说明	占比（推理）
模型权重	神经网络参数本身的存储	60–80%
KV Cache	注意力机制的键值缓存，随上下文长度线性增长	10–30%
激活值 / 运行开销	前向传播中间结果、框架开销等	5–15%

量化精度对比

精度	字节/参数	质量	适用场景
FP32	4	最高	训练、研究
FP16 / BF16	2	接近原始	推理主流格式
INT8	1	轻微下降	生产部署
INT4	0.5	有损失	边缘/消费级 GPU
GGUF Q4_K_M	~0.55	较好平衡	llama.cpp 本地运行
GGUF Q5_K_M	~0.65	较高质量	llama.cpp 高质量推理

训练 vs 推理显存差异

推理：只需存储权重 + KV Cache + 少量激活值
训练（全量微调）：还需存储梯度（1x 权重大小）和优化器状态（Adam 需要 2x），总计约 4x 推理显存
LoRA 微调：冻结大部分参数，显存需求接近推理，是消费级 GPU 训练的主流方案

KV Cache 计算原理

KV Cache = 2 × num_layers × hidden_dim × context_len × batch × bytes_per_param

简化估算（基于参数量）：
KV Cache ≈ 参数量(B) × 0.125 × (context / 4096) × batch × bytes

例：7B FP16，4096 tokens，batch=1
≈ 7 × 0.125 × 1 × 1 × 2 ≈ 1.75 GB

💡 小贴士：运行 7B 模型推荐至少 8GB 显存（INT4/GGUF），16GB 可流畅运行 FP16。70B 模型 FP16 需要约 140GB 显存，需要多卡或使用 INT4 量化（约 40GB）。消费级显卡推荐使用 GGUF 格式配合 llama.cpp 或 Ollama 本地运行。