运行大型语言模型(LLM)时,显存(VRAM)是最关键的硬件资源。显存不足会导致模型无法加载或运行速度极慢(需要 CPU 内存卸载)。
| 组成 | 说明 | 占比(推理) |
|---|---|---|
| 模型权重 | 神经网络参数本身的存储 | 60–80% |
| KV Cache | 注意力机制的键值缓存,随上下文长度线性增长 | 10–30% |
| 激活值 / 运行开销 | 前向传播中间结果、框架开销等 | 5–15% |
| 精度 | 字节/参数 | 质量 | 适用场景 |
|---|---|---|---|
| FP32 | 4 | 最高 | 训练、研究 |
| FP16 / BF16 | 2 | 接近原始 | 推理主流格式 |
| INT8 | 1 | 轻微下降 | 生产部署 |
| INT4 | 0.5 | 有损失 | 边缘/消费级 GPU |
| GGUF Q4_K_M | ~0.55 | 较好平衡 | llama.cpp 本地运行 |
| GGUF Q5_K_M | ~0.65 | 较高质量 | llama.cpp 高质量推理 |