← 返回工具箱
🤖 LLM显存计算器

配置模型参数

📖 LLM 显存知识

运行大型语言模型(LLM)时,显存(VRAM)是最关键的硬件资源。显存不足会导致模型无法加载或运行速度极慢(需要 CPU 内存卸载)。

显存组成部分

组成说明占比(推理)
模型权重神经网络参数本身的存储60–80%
KV Cache注意力机制的键值缓存,随上下文长度线性增长10–30%
激活值 / 运行开销前向传播中间结果、框架开销等5–15%

量化精度对比

精度字节/参数质量适用场景
FP324最高训练、研究
FP16 / BF162接近原始推理主流格式
INT81轻微下降生产部署
INT40.5有损失边缘/消费级 GPU
GGUF Q4_K_M~0.55较好平衡llama.cpp 本地运行
GGUF Q5_K_M~0.65较高质量llama.cpp 高质量推理

训练 vs 推理显存差异

KV Cache 计算原理

KV Cache = 2 × num_layers × hidden_dim × context_len × batch × bytes_per_param

简化估算(基于参数量):
KV Cache ≈ 参数量(B) × 0.125 × (context / 4096) × batch × bytes

例:7B FP16,4096 tokens,batch=1
≈ 7 × 0.125 × 1 × 1 × 2 ≈ 1.75 GB
💡 小贴士:运行 7B 模型推荐至少 8GB 显存(INT4/GGUF),16GB 可流畅运行 FP16。70B 模型 FP16 需要约 140GB 显存,需要多卡或使用 INT4 量化(约 40GB)。消费级显卡推荐使用 GGUF 格式配合 llama.cpp 或 Ollama 本地运行。