量化对比
对比不同量化方案的显存占用、效果与部署可行性。
量化方式对比
对比同一模型在不同量化方式下的显存需求,并结合指定 GPU 判断是否可部署。
| 量化方式 | 建议总显存 | 每卡显存 | 相对 INT4 变化 | NVIDIA RTX A6000 48GB 适配 | 说明 |
|---|---|---|---|---|---|
| INT4 | 666.91 GiB | 666.91 GiB | 基线 | 显存不足 | 当前参数下显存超出 48 GB,建议升配或增加并行卡数。 |
| INT8 | 1083.43 GiB | 1083.43 GiB | +62.5% | 显存不足 | 当前参数下显存超出 48 GB,建议升配或增加并行卡数。 |
| FP8 | 1083.43 GiB | 1083.43 GiB | +62.5% | 架构不支持 | 当前 GPU 架构未列出对该量化的支持。 |
| FP16 | 2009.02 GiB | 2009.02 GiB | +201.2% | 显存不足 | 当前参数下显存超出 48 GB,建议升配或增加并行卡数。 |
| BF16 | 2009.02 GiB | 2009.02 GiB | +201.2% | 显存不足 | 当前参数下显存超出 48 GB,建议升配或增加并行卡数。 |