Skip to content
首页/在线工具/GPU 选型

GPU 选型

根据模型规模、量化方式与部署约束推荐合适的 GPU 配置。

模型-GPU 匹配推荐

根据模型、量化方式、上下文与并发条件,给出更适合的 GPU 选型建议,并判断是否可单卡部署。

建议总显存2009.02 GiB
单卡所需显存2009.02 GiB
模型参数量684.53B

优先推荐

按照量化支持、所需卡数、部署定位和推荐优先级排序。

NVIDIA H200 141GB

数据中心
生产级 · 141 GB
15 卡

预计至少需要 15 张同规格显卡进行张量并行部署。

NVIDIA A100 80GB

数据中心
生产级 · 80 GB
26 卡

预计至少需要 26 张同规格显卡进行张量并行部署。

NVIDIA H100 80GB

数据中心
生产级 · 80 GB
26 卡

预计至少需要 26 张同规格显卡进行张量并行部署。

NVIDIA A40 48GB

数据中心
生产级 · 48 GB
42 卡

预计至少需要 42 张同规格显卡进行张量并行部署。

NVIDIA L40 48GB

数据中心
生产级 · 48 GB
42 卡

预计至少需要 42 张同规格显卡进行张量并行部署。

NVIDIA L40S 48GB

数据中心
生产级 · 48 GB
42 卡

预计至少需要 42 张同规格显卡进行张量并行部署。

GPU显存量化支持最少卡数单卡部署部署说明
NVIDIA H200 141GB数据中心 · 生产级
141 GBFP1615 卡需多卡
建议使用 15 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A100 80GB数据中心 · 生产级
80 GBFP1626 卡需多卡
建议使用 26 卡张量并行,并结合上下文与并发继续压测。
NVIDIA H100 80GB数据中心 · 生产级
80 GBFP1626 卡需多卡
建议使用 26 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A40 48GB数据中心 · 生产级
48 GBFP1642 卡需多卡
建议使用 42 卡张量并行,并结合上下文与并发继续压测。
NVIDIA L40 48GB数据中心 · 生产级
48 GBFP1642 卡需多卡
建议使用 42 卡张量并行,并结合上下文与并发继续压测。
NVIDIA L40S 48GB数据中心 · 生产级
48 GBFP1642 卡需多卡
建议使用 42 卡张量并行,并结合上下文与并发继续压测。
NVIDIA RTX A6000 48GB工作站 · 部门级
48 GBFP1642 卡需多卡
建议使用 42 卡张量并行,并结合上下文与并发继续压测。
NVIDIA RTX 6000 Ada 48GB工作站 · 部门级
48 GBFP1642 卡需多卡
建议使用 42 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A100 40GB数据中心 · 生产级
40 GBFP1651 卡需多卡
建议使用 51 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5090 32GB消费级 · 实验验证
32 GBFP1663 卡需多卡
建议使用 63 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A10 24GB数据中心 · 生产级
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A30 24GB数据中心 · 生产级
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
NVIDIA L4 24GB数据中心 · 生产级
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
NVIDIA TITAN RTX 24GB消费级 · 实验验证
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 3090 24GB消费级 · 实验验证
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 4090 24GB消费级 · 实验验证
24 GBFP1684 卡需多卡
建议使用 84 卡张量并行,并结合上下文与并发继续压测。
NVIDIA T4 16GB数据中心 · 生产级
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
NVIDIA A2 16GB数据中心 · 生产级
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5060 Ti 16GB消费级 · 实验验证
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5070 Ti 16GB消费级 · 实验验证
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5080 16GB消费级 · 实验验证
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 4060 Ti 16GB消费级 · 实验验证
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 4080 16GB消费级 · 实验验证
16 GBFP16126 卡需多卡
建议使用 126 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5070 12GB消费级 · 实验验证
12 GBFP16168 卡需多卡
建议使用 168 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 3060 12GB消费级 · 实验验证
12 GBFP16168 卡需多卡
建议使用 168 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2080 Ti 11GB消费级 · 实验验证
11 GBFP16183 卡需多卡
建议使用 183 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2060 SUPER 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2070 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2070 SUPER 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2080 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2080 SUPER 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5050 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 5060 8GB消费级 · 实验验证
8 GBFP16252 卡需多卡
建议使用 252 卡张量并行,并结合上下文与并发继续压测。
GeForce RTX 2060 6GB消费级 · 实验验证
6 GBFP16335 卡需多卡
建议使用 335 卡张量并行,并结合上下文与并发继续压测。