LLM 模型参考

查看模型参数量、上下文、推荐 GPU 与部署特征。

LLM 模型参考

按模型系列、主线名称、变体和参数规模做快速筛选，便于在部署前完成模型级对比与初筛。

显存为工程估算；若出现 ⚠，表示该数值低于仅权重占用的理论下限，需要重新核验。

搜索

模型系列

主线名称

模型变体

发布时间参数规模

			主线名称	模型变体			显存估算（GB）	推荐 GPU
MiMo-V2.5-ProXiaomiMiMo 工具调用	2026-04-27	xiaomi	MiMo-V2.5-Pro	标准 / 主线	1020B / A42B	1024K	INT4857.6 INT81434.4 FP162716.3	20x NVIDIA H200 141GB最低: 7x NVIDIA H200 141GB
DeepSeek-V4-Prodeepseek-ai 工具调用	2026-04-22	deepseek	DeepSeek-V4-Pro	标准 / 主线	1600B / A49B	1024K	INT41256.6 INT82160 FP164167.5	30x NVIDIA H200 141GB最低: 9x NVIDIA H200 141GB
DeepSeek-V4-Flashdeepseek-ai 工具调用	2026-04-22	deepseek	DeepSeek-V4-Flash	标准 / 主线	284B / A13B	1024K	INT4200.4 INT8361.1 FP16718.3	6x NVIDIA H200 141GB最低: 2x NVIDIA H200 141GB
Qwen3.6-27BQwen 多模态	2026-04-21	qwen	Qwen3.6-27B	标准 / 主线	27B	256K	INT424 INT838 FP1672	A100 80GB / H100 80GB最低: L40S 48GB / A100 80GB
Qwen3.6-35B-A3BQwen 多模态	2026-04-15	qwen	Qwen3.6-35B-A3B	标准 / 主线	35B MoE / 3B active	256K	INT418 INT832 FP1678	A100 80GB / H100 80GB最低: L40S 48GB / A100 80GB
MiniMax-M2.7MiniMaxAI 工具调用JSON	2026-04-09	minimax	MiniMax-M2.7	标准 / 主线	229B MoE / 10B active	200K	INT4311.2 INT8440.4 FP16728.3	6x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
GLM-5.1zai-org 工具调用	2026-04-03	zai	GLM-5.1	标准 / 主线	754B MoE / 40B active	198K	INT4563.9 INT8990.8 FP161939.6	25x H100 80GB最低: 8x H100 80GB
Qwen3.5-2BQwen 多模态	2026-02-28	qwen	Qwen3.5-2B	标准 / 主线	2B	256K	INT41.6 INT83 FP166	RTX 5090 32GB / L20 48GB最低: RTX 4090 24GB
Qwen3.5-0.8BQwen 多模态	2026-02-28	qwen	Qwen3.5-0.8B	标准 / 主线	0.8B	256K	INT40.6 INT81.2 FP162.4	RTX 5090 32GB / L20 48GB最低: RTX 4090 24GB
Qwen3.5-9BQwen 多模态	2026-02-27	qwen	Qwen3.5-9B	标准 / 主线	9B	128K	INT46.5 INT812.4 FP1624.8	RTX 5090 32GB / L20 48GB最低: RTX 4090 24GB
Qwen3.5-4BQwen 多模态	2026-02-27	qwen	Qwen3.5-4B	标准 / 主线	4B	128K	INT42.9 INT85.5 FP1611	RTX 5090 32GB / L20 48GB最低: RTX 4090 24GB
Qwen3.5-122B-A10BQwen 多模态	2026-02-24	qwen	Qwen3.5-122B-A10B	标准 / 主线	122B-A10B	256K	INT495.3 INT8183 FP16366	3x NVIDIA H200 141GB最低: NVIDIA H200 141GB
Qwen3.5-35B-A3BQwen 多模态	2026-02-24	qwen	Qwen3.5-35B-A3B	标准 / 主线	35B-A3B	256K	INT427.3 INT852.5 FP16105	H100 80GB / H200 141GB最低: L40S 48GB / A100 80GB
Qwen3.5-27BQwen 多模态	2026-02-24	qwen	Qwen3.5-27B	标准 / 主线	27B	256K	INT421.1 INT840.5 FP1681	A100 80GB / H100 80GB最低: L40S 48GB
Qwen3.5-397B-A17BQwen 多模态	2026-02-16	qwen	Qwen3.5-397B-A17B	标准 / 主线	397B-A17B	256K	INT4310.2 INT8595.5 FP161191	9x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
WebWorld-32BQwen	2026-02-13	qwen	WebWorld-32B	标准 / 主线	32B	40K	INT433.2 INT852.6 FP1695.8	NVIDIA H200 141GB最低: NVIDIA RTX A6000 48GB / NVIDIA A40 48GB
WebWorld-14BQwen	2026-02-13	qwen	WebWorld-14B	标准 / 主线	14B	40K	INT416.9 INT825.2 FP1644.1	NVIDIA RTX A6000 48GB / NVIDIA A40 48GB最低: NVIDIA RTX A6000 48GB / NVIDIA TITAN RTX 24GB
WebWorld-8BQwen	2026-02-13	qwen	WebWorld-8B	标准 / 主线	8B	40K	INT412.4 INT816.7 FP1627.4	NVIDIA RTX A6000 48GB / NVIDIA A40 48GB最低: NVIDIA RTX A6000 48GB / GeForce RTX 4060 Ti 16GB
MiniMax-M2.5MiniMaxAI 工具调用JSON	2026-02-12	minimax	MiniMax-M2.5	标准 / 主线	229B MoE / 10B active	192K	INT4311.2 INT8440.4 FP16728.3	6x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
MiniCPM-SALAOpenBMB 工具调用JSON	2026-02-11	openbmb	MiniCPM-SALA	标准 / 主线	9B	512K	INT412 INT818 FP1630	L40S 48GB / A100 80GB最低: RTX 4090 24GB / L40S 48GB
GLM-5zai-org 工具调用	2026-02-11	zai	GLM-5	标准 / 主线	744B / A40B	198K	INT4557.4 INT8979 FP161915.8	14x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
Step-3.5-Flashstepfun-ai 工具调用JSON	2026-02-01	stepfun	Step-3.5-Flash	标准 / 主线	196B MoE / 11B active	256K	INT4288.6 INT8399.4 FP16646.3	5x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
Qwen3-Coder-NextQwen 工具调用JSON	2026-01-30	qwen	Qwen3-Coder-Next	标准 / 主线	80B-A3B	256K	INT462.5 INT8120 FP16240	-最低: -
GLM-4.7-Flashzai-org 工具调用JSON	2026-01-19	zai	GLM-4.7-Flash	标准 / 主线	30B-A3B	198K	INT424.3 INT840.4 FP1676.1	L40S 48GB / H100 80GB最低: RTX 5090 32GB / L40S 48GB
GLM-4.7zai-org 工具调用JSON	2025-12-22	zai	GLM-4.7	标准 / 主线	355B MoE / 32B active	198K	INT4404.8 INT8611.1 FP161069.8	8x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
MiniMax-M2.1MiniMaxAI 工具调用	2025-12-20	minimax	MiniMax-M2.1	标准 / 主线	229B MoE	192K	INT4171.9 INT8305.1 FP16600.9	5x NVIDIA H200 141GB最低: 2x NVIDIA H200 141GB
MiMo-V2-FlashXiaomiMiMo 工具调用JSON	2025-12-16	xiaomi	MiMo-V2-Flash	标准 / 主线	309B / A15B	256K	INT4366.3 INT8541.3 FP16930.1	7x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
DeepSeek-V3.2deepseek-ai 工具调用JSON	2025-12-01	deepseek	DeepSeek-V3.2	标准 / 主线	671B MoE / 37B active	160K	INT4617.3 INT8997.6 FP161842.8	14x NVIDIA H200 141GB最低: 5x NVIDIA H200 141GB
DeepSeek-V3.2-Specialedeepseek-ai 工具调用JSON	2025-11-28	deepseek	DeepSeek-V3.2-Speciale	标准 / 主线	671B MoE / 37B active	160K	INT4617.3 INT8997.6 FP161842.8	14x NVIDIA H200 141GB最低: 5x NVIDIA H200 141GB
Kimi-K2-Thinkingmoonshotai 工具调用JSON	2025-11-04	moonshot	Kimi-K2	Thinking	1100B MoE / 32B active	256K	INT4911.4 INT81532.3 FP162912.2	21x NVIDIA H200 141GB最低: 7x NVIDIA H200 141GB
Kimi-Linear-48B-A3B-Instructmoonshotai 工具调用JSON	2025-10-30	moonshot	Kimi-Linear-48B-A3B	Instruct	48B MoE / 3B active	1024K	INT4119.6 INT8146.6 FP16206.5	2x NVIDIA H200 141GB最低: NVIDIA H200 141GB
MiniMax-M2MiniMaxAI 工具调用JSON	2025-10-22	minimax	MiniMax-M2	标准 / 主线	229B MoE / 10B active	192K	INT4311.2 INT8440.4 FP16728.3	6x NVIDIA H200 141GB最低: 3x NVIDIA H200 141GB
GLM-4.6zai-org 工具调用JSON	2025-09-29	zai	GLM-4.6	标准 / 主线	355B MoE / 32B active	198K	INT4258.9 INT8459.9 FP16906.7	12x H100 80GB最低: 4x H100 80GB
DeepSeek-V3.2-Expdeepseek-ai 工具调用JSON	2025-09-29	deepseek	DeepSeek-V3.2-Exp	标准 / 主线	671B / A37B	160K	INT4522 INT8902.3 FP161747.5	13x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
Qwen3-Next-80B-A3B-ThinkingQwen	2025-09-09	qwen	Qwen3-Next-80B-A3B	Thinking	80B-A3B	256K	INT462.5 INT8120 FP16240	-最低: -
Qwen3-Next-80B-A3B-InstructQwen 工具调用JSON	2025-09-09	qwen	Qwen3-Next-80B-A3B	Instruct	80B-A3B	256K	INT462.5 INT8120 FP16240	-最低: -
Kimi-K2-Instruct-0905moonshotai 工具调用JSON	2025-09-03	moonshot	Kimi-K2	Instruct	1000B MoE / 32B active	256K	INT4842.7 INT81407.5 FP162662.4	19x NVIDIA H200 141GB最低: 6x NVIDIA H200 141GB
DeepSeek-V3.1deepseek-ai 工具调用JSON	2025-08-21	deepseek	DeepSeek-V3.1	标准 / 主线	671B MoE / 37B active	125K	INT4617.3 INT8997.6 FP161842.8	14x NVIDIA H200 141GB最低: 5x NVIDIA H200 141GB
Qwen3-4B-Thinking-2507Qwen 工具调用JSON	2025-08-05	qwen	Qwen3-4B	Thinking	4B	256K	INT43.1 INT86 FP1612	-最低: -
Qwen3-4B-Instruct-2507Qwen 工具调用JSON	2025-08-05	qwen	Qwen3-4B	Instruct	4B	256K	INT43.1 INT86 FP1612	-最低: -
Qwen3-Coder-30B-A3B-InstructQwen 工具调用JSON	2025-07-31	qwen	Qwen3-Coder-30B-A3B	Instruct	30B-A3B	256K	INT423.4 INT845 FP1690	-最低: -
Qwen3-30B-A3B-Thinking-2507Qwen 工具调用JSON	2025-07-29	qwen	Qwen3-30B-A3B	Thinking	30B-A3B	256K	INT423.4 INT845 FP1690	-最低: -
Qwen3-30B-A3B-Instruct-2507Qwen 工具调用JSON	2025-07-28	qwen	Qwen3-30B-A3B	Instruct	30B-A3B	256K	INT423.4 INT845 FP1690	-最低: -
Qwen3-235B-A22B-Thinking-2507Qwen 工具调用JSON	2025-07-25	qwen	Qwen3-235B-A22B	Thinking	235B-A22B	256K	INT4183.6 INT8352.5 FP16705	-最低: -
Qwen3-Coder-480B-A35B-InstructQwen 工具调用JSON	2025-07-22	qwen	Qwen3-Coder-480B-A35B	Instruct	480B-A35B	256K	INT4375 INT8720 FP161440	-最低: -
Qwen3-235B-A22B-Instruct-2507Qwen 工具调用JSON	2025-07-21	qwen	Qwen3-235B-A22B	Instruct	235B-A22B	256K	INT4183.6 INT8352.5 FP16705	-最低: -
GLM-4.5-Airzai-org 工具调用	2025-07-20	zai	GLM-4.5-Air	标准 / 主线	106B MoE / 12B active	128K	INT484.4 INT8146.5 FP16285.7	4x H100 80GB最低: 2x H100 80GB
GLM-4.5zai-org 工具调用	2025-07-20	zai	GLM-4.5	标准 / 主线	355B MoE / 32B active	128K	INT4258.9 INT8459.9 FP16906.7	12x H100 80GB最低: 4x H100 80GB
Kimi-K2-Instructmoonshotai 工具调用JSON	2025-07-11	moonshot	Kimi-K2	Instruct	1000B / A32B	128K	INT4747.4 INT81312.2 FP162567.2	19x NVIDIA H200 141GB最低: 6x NVIDIA H200 141GB
MiniMax-M1-80k-hfMiniMaxAI 工具调用JSON	2025-07-01	minimax	MiniMax-M1-80k-hf	标准 / 主线	456B MoE / 45.9B active	1,000,000	INT4470.6 INT8730.9 FP161309.4	10x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
MiniMax-Text-01-hfMiniMaxAI 工具调用JSON	2025-06-03	minimax	MiniMax-Text-01-hf	标准 / 主线	456B MoE / 45.9B active	1,000,000	INT4470.6 INT8730.9 FP161309.4	10x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
MiMo-7B-RL-0530XiaomiMiMo 工具调用JSON	2025-05-30	xiaomi	MiMo-7B	RL	8B	64K	INT46 INT810 FP1616	RTX 4090 24GB / L40S 48GB最低: RTX 4060 Ti 16GB / RTX 4090 24GB
DeepSeek-R1-0528-Qwen3-8Bdeepseek-ai 工具调用	2025-05-29	deepseek	DeepSeek-R1-0528-Qwen3-8B	标准 / 主线	8B	128K	INT45 INT89.6 FP1619.2	-最低: -
DeepSeek-R1-0528deepseek-ai 工具调用	2025-05-28	deepseek	DeepSeek-R1	标准 / 主线	685B / A37B	160K	INT4531.6 INT8919.8 FP161782.4	13x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
Qwen3-235B-A22BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-235B-A22B	标准 / 主线	235B-A22B	40K	INT4146.9 INT8282 FP16564	-最低: -
Qwen3-32BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-32B	标准 / 主线	32B	40K	INT420 INT838.4 FP1676.8	-最低: -
Qwen3-30B-A3BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-30B-A3B	标准 / 主线	30B-A3B	40K	INT418.8 INT836 FP1672	-最低: -
Qwen3-14BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-14B	标准 / 主线	14B	40K	INT48.8 INT816.8 FP1633.6	L40S 48GB / A100 80GB最低: RTX 4090 24GB
Qwen3-8BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-8B	标准 / 主线	8B	40K	INT45 INT89.6 FP1619.2	-最低: -
Qwen3-4BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-4B	标准 / 主线	4B	40K	INT42.5 INT84.8 FP169.6	-最低: -
Qwen3-1.7BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-1.7B	标准 / 主线	1.7B	40K	INT41.1 INT82 FP164.1	-最低: -
Qwen3-0.6BQwen 工具调用JSON	2025-04-27	qwen	Qwen3-0.6B	标准 / 主线	0.6B	40K	INT40.4 INT80.7 FP161.4	-最低: -
GLM-Z1-Rumination-32B-0414zai-org 工具调用JSON	2025-04-13	zai	GLM-Z1-Rumination-32B	标准 / 主线	32B	128K	INT432.8 INT852.2 FP1695.4	2x H100 80GB最低: L40S 48GB / A6000 48GB
GLM-Z1-32B-0414zai-org 工具调用JSON	2025-04-08	zai	GLM-Z1-32B	标准 / 主线	32B	32K	INT426.8 INT846.2 FP1689.3	2x H100 80GB最低: L40S 48GB / A6000 48GB
GLM-Z1-9B-0414zai-org 工具调用JSON	2025-04-08	zai	GLM-Z1-9B	标准 / 主线	9B	32K	INT49.7 INT814.5 FP1626.6	L40S 48GB / A6000 48GB最低: RTX 3060 12GB / RTX 4090 24GB
GLM-4-32B-0414zai-org 工具调用JSON	2025-04-07	zai	GLM-4-32B	标准 / 主线	32B	32K	INT424 INT839 FP1676	2x L40S 48GB / A100 80GB最低: RTX 4090 24GB / L40S 48GB
GLM-4-9B-0414zai-org 工具调用JSON	2025-04-07	zai	GLM-4-9B	标准 / 主线	9B	32K	INT49 INT812 FP1622	RTX 4090 24GB / L40S 48GB最低: RTX 4090 24GB / L4 24GB
DeepSeek-V3-0324deepseek-ai 工具调用JSON	2025-03-24	deepseek	DeepSeek-V3	标准 / 主线	684.53B	160K	INT4798.5 INT81405 FP162752.9	35x H100 80GB最低: 10x H100 80GB
Moonlight-16B-A3B-Instructmoonshotai 工具调用	2025-02-22	moonshot	Moonlight-16B-A3B	Instruct	16B	8K	INT414.6 INT823.8 FP1644.7	L40S 48GB / A6000 48GB最低: RTX 4090 24GB / L4 24GB
Moonlight-16B-A3Bmoonshotai 工具调用	2025-02-22	moonshot	Moonlight-16B-A3B	标准 / 主线	16B	8K	INT414.6 INT823.8 FP1644.7	L40S 48GB / A6000 48GB最低: RTX 4090 24GB / L4 24GB
DeepSeek-R1deepseek-ai	2025-01-20	deepseek	DeepSeek-R1	标准 / 主线	685B / A37B	160K	INT4531.6 INT8919.8 FP161782.4	13x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
DeepSeek-R1-Distill-Qwen-32Bdeepseek-ai 工具调用JSON	2025-01-20	deepseek	DeepSeek-R1-Distill-Qwen-32B	标准 / 主线	32B	128K	INT430 INT844 FP1682	A100 80GB / H100 80GB最低: L40S 48GB / A100 80GB
DeepSeek-R1-Distill-Qwen-14Bdeepseek-ai 工具调用JSON	2025-01-20	deepseek	DeepSeek-R1-Distill-Qwen-14B	标准 / 主线	14B	128K	INT414 INT824 FP1638	L40S 48GB / A100 80GB最低: RTX 4090 24GB / L40S 48GB
DeepSeek-R1-Distill-Llama-70Bdeepseek-ai 工具调用JSON	2025-01-20	deepseek	DeepSeek-R1-Distill-Llama-70B	标准 / 主线	70B	128K	INT452 INT892 FP16170	2x A100 80GB / 2x H100 80GB最低: A100 80GB / H100 80GB
MiniMax-Text-01MiniMaxAI 工具调用JSON	2025-01-12	minimax	MiniMax-Text-01	标准 / 主线	456B MoE / 45.9B active	10000K	INT4470.6 INT8730.9 FP161309.4	10x NVIDIA H200 141GB最低: 4x NVIDIA H200 141GB
DeepSeek-V3deepseek-ai JSON	2024-12-25	deepseek	DeepSeek-V3	标准 / 主线	671B / A37B	160K	INT4617.3 INT8997.6 FP161842.8	14x NVIDIA H200 141GB最低: 5x NVIDIA H200 141GB
Qwen2.5-7B-InstructQwen JSON	2024-09-16	qwen	Qwen2.5-7B	Instruct	7B	128K	INT48 INT812 FP1620	RTX 4090 24GB / L40S 48GB最低: RTX 3060 12GB / L4 24GB