Skip to content
首页/资源导航/LLM 模型参考

LLM 模型参考

查看模型参数量、上下文、推荐 GPU 与部署特征。

LLM 模型参考

按模型系列、主线名称、变体和参数规模做快速筛选,便于在部署前完成模型级对比与初筛。

模型系列
主线名称
模型变体
主线名称模型变体显存估算推荐 GPU
MiMo-V2.5-ProXiaomiMiMo
工具调用
2026-04-27xiaomiMiMo-V2.5-Pro标准 / 主线1020B / A42B1024KINT4 857.6 / INT8 1434.4 / FP16 2716.3
20x NVIDIA H200 141GB
最低:7x NVIDIA H200 141GB
DeepSeek-V4-Prodeepseek-ai
工具调用
2026-04-22deepseekDeepSeek-V4-Pro标准 / 主线1600B / A49B1024KINT4 1256.6 / INT8 2160 / FP16 4167.5
30x NVIDIA H200 141GB
最低:9x NVIDIA H200 141GB
DeepSeek-V4-Flashdeepseek-ai
工具调用
2026-04-22deepseekDeepSeek-V4-Flash标准 / 主线284B / A13B1024KINT4 200.4 / INT8 361.1 / FP16 718.3
6x NVIDIA H200 141GB
最低:2x NVIDIA H200 141GB
MiniMax-M2.7MiniMaxAI
工具调用JSON
2026-04-09minimaxMiniMax-M2.7标准 / 主线229B MoE / 10B active200KINT4 311.2 / INT8 440.4 / FP16 728.3
6x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
GLM-5.1zai-org
工具调用
2026-04-03zaiGLM-5.1标准 / 主线753.86B198KINT4 563.9 / INT8 990.8 / FP16 1939.6
25x H100 80GB
最低:8x H100 80GB
WebWorld-32BQwen
2026-02-13qwenWebWorld-32B标准 / 主线32B40KINT4 33.2 / INT8 52.6 / FP16 95.8
NVIDIA H200 141GB
最低:NVIDIA RTX A6000 48GB / NVIDIA A40 48GB
WebWorld-14BQwen
2026-02-13qwenWebWorld-14B标准 / 主线14B40KINT4 16.9 / INT8 25.2 / FP16 44.1
NVIDIA RTX A6000 48GB / NVIDIA A40 48GB
最低:NVIDIA RTX A6000 48GB / NVIDIA TITAN RTX 24GB
WebWorld-8BQwen
2026-02-13qwenWebWorld-8B标准 / 主线8B40KINT4 12.4 / INT8 16.7 / FP16 27.4
NVIDIA RTX A6000 48GB / NVIDIA A40 48GB
最低:NVIDIA RTX A6000 48GB / GeForce RTX 4060 Ti 16GB
MiniMax-M2.5MiniMaxAI
工具调用JSON
2026-02-12minimaxMiniMax-M2.5标准 / 主线229B MoE / 10B active192KINT4 311.2 / INT8 440.4 / FP16 728.3
6x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
MiniCPM-SALAOpenBMB
工具调用JSON
2026-02-11openbmbMiniCPM-SALA标准 / 主线9B512KINT4 12 / INT8 18 / FP16 30
L40S 48GB / A100 80GB
最低:RTX 4090 24GB / L40S 48GB
GLM-5zai-org
工具调用
2026-02-11zaiGLM-5标准 / 主线744B / A40B198KINT4 557.4 / INT8 979 / FP16 1915.8
14x NVIDIA H200 141GB
最低:4x NVIDIA H200 141GB
Step-3.5-Flashstepfun-ai
工具调用JSON
2026-02-01stepfunStep-3.5-Flash标准 / 主线196B MoE / 11B active256KINT4 288.6 / INT8 399.4 / FP16 646.3
5x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
Qwen3-Coder-NextQwen
工具调用JSON
2026-01-30qwenQwen3-Coder-Next标准 / 主线80B-A3B256KINT4 62.5 / INT8 120 / FP16 240
-
最低:-
GLM-4.7-Flashzai-org
工具调用JSON
2026-01-19zaiGLM-4.7-Flash标准 / 主线MoE Flash198KINT4 227.8 / INT8 289.4 / FP16 426.4
4x NVIDIA H200 141GB
最低:2x NVIDIA H200 141GB
GLM-4.7zai-org
工具调用JSON
2025-12-22zaiGLM-4.7标准 / 主线MoE198KINT4 404.8 / INT8 611.1 / FP16 1069.8
8x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
MiniMax-M2.1MiniMaxAI
工具调用
2025-12-20minimaxMiniMax-M2.1标准 / 主线229B MoE192KINT4 171.9 / INT8 305.1 / FP16 600.9
5x NVIDIA H200 141GB
最低:2x NVIDIA H200 141GB
MiMo-V2-FlashXiaomiMiMo
工具调用JSON
2025-12-16xiaomiMiMo-V2-Flash标准 / 主线309B / A15B256KINT4 366.3 / INT8 541.3 / FP16 930.1
7x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
DeepSeek-V3.2deepseek-ai
工具调用JSON
2025-12-01deepseekDeepSeek-V3.2标准 / 主线671B MoE / 37B active160KINT4 617.3 / INT8 997.6 / FP16 1842.8
14x NVIDIA H200 141GB
最低:5x NVIDIA H200 141GB
DeepSeek-V3.2-Specialedeepseek-ai
工具调用JSON
2025-11-28deepseekDeepSeek-V3.2-Speciale标准 / 主线671B MoE / 37B active160KINT4 617.3 / INT8 997.6 / FP16 1842.8
14x NVIDIA H200 141GB
最低:5x NVIDIA H200 141GB
Kimi-K2-Thinkingmoonshotai
工具调用JSON
2025-11-04moonshotKimi-K2Thinking1100B MoE / 32B active256KINT4 911.4 / INT8 1532.3 / FP16 2912.2
21x NVIDIA H200 141GB
最低:7x NVIDIA H200 141GB
Kimi-Linear-48B-A3B-Instructmoonshotai
工具调用JSON
2025-10-30moonshotKimi-Linear-48B-A3BInstruct48B MoE / 3B active1024KINT4 119.6 / INT8 146.6 / FP16 206.5
2x NVIDIA H200 141GB
最低:NVIDIA H200 141GB
MiniMax-M2MiniMaxAI
工具调用JSON
2025-10-22minimaxMiniMax-M2标准 / 主线229B MoE / 10B active192KINT4 311.2 / INT8 440.4 / FP16 728.3
6x NVIDIA H200 141GB
最低:3x NVIDIA H200 141GB
GLM-4.6zai-org
工具调用JSON
2025-09-29zaiGLM-4.6标准 / 主线355B198KINT4 258.9 / INT8 459.9 / FP16 906.7
12x H100 80GB
最低:4x H100 80GB
DeepSeek-V3.2-Expdeepseek-ai
工具调用JSON
2025-09-29deepseekDeepSeek-V3.2-Exp标准 / 主线671B / A37B160KINT4 522 / INT8 902.3 / FP16 1747.5
13x NVIDIA H200 141GB
最低:4x NVIDIA H200 141GB
Qwen3-Next-80B-A3B-ThinkingQwen
2025-09-09qwenQwen3-Next-80B-A3BThinking80B-A3B256KINT4 62.5 / INT8 120 / FP16 240
-
最低:-
Qwen3-Next-80B-A3B-InstructQwen
工具调用JSON
2025-09-09qwenQwen3-Next-80B-A3BInstruct80B-A3B256KINT4 62.5 / INT8 120 / FP16 240
-
最低:-
Kimi-K2-Instruct-0905moonshotai
工具调用JSON
2025-09-03moonshotKimi-K2Instruct1000B MoE / 32B active256KINT4 842.7 / INT8 1407.5 / FP16 2662.4
19x NVIDIA H200 141GB
最低:6x NVIDIA H200 141GB
DeepSeek-V3.1deepseek-ai
工具调用JSON
2025-08-21deepseekDeepSeek-V3.1标准 / 主线671B MoE / 37B active125KINT4 617.3 / INT8 997.6 / FP16 1842.8
14x NVIDIA H200 141GB
最低:5x NVIDIA H200 141GB
Qwen3-4B-Thinking-2507Qwen
工具调用JSON
2025-08-05qwenQwen3-4BThinking4B256KINT4 3.1 / INT8 6 / FP16 12
-
最低:-
Qwen3-4B-Instruct-2507Qwen
工具调用JSON
2025-08-05qwenQwen3-4BInstruct4B256KINT4 3.1 / INT8 6 / FP16 12
-
最低:-
Qwen3-Coder-30B-A3B-InstructQwen
工具调用JSON
2025-07-31qwenQwen3-Coder-30B-A3BInstruct30B-A3B256KINT4 23.4 / INT8 45 / FP16 90
-
最低:-
Qwen3-30B-A3B-Thinking-2507Qwen
工具调用JSON
2025-07-29qwenQwen3-30B-A3BThinking30B-A3B256KINT4 23.4 / INT8 45 / FP16 90
-
最低:-
Qwen3-30B-A3B-Instruct-2507Qwen
工具调用JSON
2025-07-28qwenQwen3-30B-A3BInstruct30B-A3B256KINT4 23.4 / INT8 45 / FP16 90
-
最低:-
Qwen3-235B-A22B-Thinking-2507Qwen
工具调用JSON
2025-07-25qwenQwen3-235B-A22BThinking235B-A22B256KINT4 183.6 / INT8 352.5 / FP16 705
-
最低:-
Qwen3-Coder-480B-A35B-InstructQwen
工具调用JSON
2025-07-22qwenQwen3-Coder-480B-A35BInstruct480B-A35B256KINT4 375 / INT8 720 / FP16 1440
-
最低:-
Qwen3-235B-A22B-Instruct-2507Qwen
工具调用JSON
2025-07-21qwenQwen3-235B-A22BInstruct235B-A22B256KINT4 183.6 / INT8 352.5 / FP16 705
-
最低:-
GLM-4.5-Airzai-org
工具调用
2025-07-20zaiGLM-4.5-Air标准 / 主线110.47B128KINT4 84.4 / INT8 146.5 / FP16 285.7
4x H100 80GB
最低:2x H100 80GB
GLM-4.5zai-org
工具调用
2025-07-20zaiGLM-4.5标准 / 主线355B128KINT4 258.9 / INT8 459.9 / FP16 906.7
12x H100 80GB
最低:4x H100 80GB
Kimi-K2-Instructmoonshotai
工具调用JSON
2025-07-11moonshotKimi-K2Instruct1000B / A32B128KINT4 747.4 / INT8 1312.2 / FP16 2567.2
19x NVIDIA H200 141GB
最低:6x NVIDIA H200 141GB
MiniMax-M1-80k-hfMiniMaxAI
工具调用JSON
2025-07-01minimaxMiniMax-M1-80k-hf标准 / 主线456B MoE / 45.9B active1,000,000INT4 470.6 / INT8 730.9 / FP16 1309.4
10x NVIDIA H200 141GB
最低:4x NVIDIA H200 141GB
MiniMax-Text-01-hfMiniMaxAI
工具调用JSON
2025-06-03minimaxMiniMax-Text-01-hf标准 / 主线456B MoE / 45.9B active1,000,000INT4 470.6 / INT8 730.9 / FP16 1309.4
10x NVIDIA H200 141GB
最低:4x NVIDIA H200 141GB
SynLogic-7BMiniMaxAI
2025-06-03minimaxSynLogic-7B标准 / 主线7B128KINT4 8.9 / INT8 12.6 / FP16 21.8
RTX 4090 24GB / L4 24GB
最低:RTX 3060 12GB / RTX 4090 24GB
MiMo-7B-RL-0530XiaomiMiMo
工具调用JSON
2025-05-30xiaomiMiMo-7BRL8B64KINT4 6 / INT8 10 / FP16 16
RTX 4090 24GB / L40S 48GB
最低:RTX 4060 Ti 16GB / RTX 4090 24GB
SynLogic-Mix-3-32BMiniMaxAI
2025-05-30minimaxSynLogic-Mix-3-32B标准 / 主线32B128KINT4 33.2 / INT8 52.6 / FP16 95.8
2x H100 80GB
最低:L40S 48GB / A6000 48GB
SynLogic-32BMiniMaxAI
2025-05-30minimaxSynLogic-32B标准 / 主线32B128KINT4 33.2 / INT8 52.6 / FP16 95.8
2x H100 80GB
最低:L40S 48GB / A6000 48GB
DeepSeek-R1-0528-Qwen3-8Bdeepseek-ai
工具调用
2025-05-29deepseekDeepSeek-R1-0528-Qwen3-8B标准 / 主线8B128KINT4 5 / INT8 9.6 / FP16 19.2
-
最低:-
DeepSeek-R1-0528deepseek-ai
工具调用
2025-05-28deepseekDeepSeek-R1标准 / 主线685B / A37B160KINT4 531.6 / INT8 919.8 / FP16 1782.4
13x NVIDIA H200 141GB
最低:4x NVIDIA H200 141GB
Qwen3-235B-A22BQwen
工具调用JSON
2025-04-27qwenQwen3-235B-A22B标准 / 主线235B-A22B40KINT4 146.9 / INT8 282 / FP16 564
-
最低:-
Qwen3-32BQwen
工具调用JSON
2025-04-27qwenQwen3-32B标准 / 主线32B40KINT4 20 / INT8 38.4 / FP16 76.8
-
最低:-
Qwen3-30B-A3BQwen
工具调用JSON
2025-04-27qwenQwen3-30B-A3B标准 / 主线30B-A3B40KINT4 18.8 / INT8 36 / FP16 72
-
最低:-
Qwen3-14BQwen
工具调用JSON
2025-04-27qwenQwen3-14B标准 / 主线14B40KINT4 8.8 / INT8 16.8 / FP16 33.6
L40S 48GB / A100 80GB
最低:RTX 4090 24GB
Qwen3-8BQwen
工具调用JSON
2025-04-27qwenQwen3-8B标准 / 主线8B40KINT4 5 / INT8 9.6 / FP16 19.2
-
最低:-
Qwen3-4BQwen
工具调用JSON
2025-04-27qwenQwen3-4B标准 / 主线4B40KINT4 2.5 / INT8 4.8 / FP16 9.6
-
最低:-
Qwen3-1.7BQwen
工具调用JSON
2025-04-27qwenQwen3-1.7B标准 / 主线1.7B40KINT4 1.1 / INT8 2 / FP16 4.1
-
最低:-
Qwen3-0.6BQwen
工具调用JSON
2025-04-27qwenQwen3-0.6B标准 / 主线0.6B40KINT4 0.4 / INT8 0.7 / FP16 1.4
-
最低:-
GLM-Z1-Rumination-32B-0414zai-org
工具调用JSON
2025-04-13zaiGLM-Z1-Rumination-32B标准 / 主线32B128KINT4 32.8 / INT8 52.2 / FP16 95.4
2x H100 80GB
最低:L40S 48GB / A6000 48GB
GLM-Z1-32B-0414zai-org
工具调用JSON
2025-04-08zaiGLM-Z1-32B标准 / 主线32B32KINT4 26.8 / INT8 46.2 / FP16 89.3
2x H100 80GB
最低:L40S 48GB / A6000 48GB
GLM-Z1-9B-0414zai-org
工具调用JSON
2025-04-08zaiGLM-Z1-9B标准 / 主线9B32KINT4 9.7 / INT8 14.5 / FP16 26.6
L40S 48GB / A6000 48GB
最低:RTX 3060 12GB / RTX 4090 24GB
GLM-4-32B-0414zai-org
工具调用JSON
2025-04-07zaiGLM-4-32B标准 / 主线32B32KINT4 24 / INT8 39 / FP16 76
2x L40S 48GB / A100 80GB
最低:RTX 4090 24GB / L40S 48GB
GLM-4-9B-0414zai-org
工具调用JSON
2025-04-07zaiGLM-4-9B标准 / 主线9B32KINT4 9 / INT8 12 / FP16 22
RTX 4090 24GB / L40S 48GB
最低:RTX 4090 24GB / L4 24GB
DeepSeek-V3-0324deepseek-ai
工具调用JSON
2025-03-24deepseekDeepSeek-V3标准 / 主线684.53B160KINT4 798.5 / INT8 1405 / FP16 2752.9
35x H100 80GB
最低:10x H100 80GB
Moonlight-16B-A3B-Instructmoonshotai
工具调用
2025-02-22moonshotMoonlight-16B-A3BInstruct16B8KINT4 14.6 / INT8 23.8 / FP16 44.7
L40S 48GB / A6000 48GB
最低:RTX 4090 24GB / L4 24GB
Moonlight-16B-A3Bmoonshotai
工具调用
2025-02-22moonshotMoonlight-16B-A3B标准 / 主线16B8KINT4 14.6 / INT8 23.8 / FP16 44.7
L40S 48GB / A6000 48GB
最低:RTX 4090 24GB / L4 24GB
DeepSeek-R1deepseek-ai
2025-01-20deepseekDeepSeek-R1标准 / 主线684.53B160KINT4 84.6 / INT8 107.1 / FP16 156.9
2x H100 80GB
最低:2x H100 80GB
DeepSeek-R1-Distill-Qwen-32Bdeepseek-ai
工具调用JSON
2025-01-20deepseekDeepSeek-R1-Distill-Qwen-32B标准 / 主线32B128KINT4 30 / INT8 44 / FP16 82
A100 80GB / H100 80GB
最低:L40S 48GB / A100 80GB
DeepSeek-R1-Distill-Qwen-14Bdeepseek-ai
工具调用JSON
2025-01-20deepseekDeepSeek-R1-Distill-Qwen-14B标准 / 主线14B128KINT4 14 / INT8 24 / FP16 38
L40S 48GB / A100 80GB
最低:RTX 4090 24GB / L40S 48GB
DeepSeek-R1-Distill-Llama-70Bdeepseek-ai
工具调用JSON
2025-01-20deepseekDeepSeek-R1-Distill-Llama-70B标准 / 主线70B128KINT4 52 / INT8 92 / FP16 170
2x A100 80GB / 2x H100 80GB
最低:A100 80GB / H100 80GB
MiniMax-Text-01MiniMaxAI
工具调用JSON
2025-01-12minimaxMiniMax-Text-01标准 / 主线4B10000KINT4 15.6 / INT8 17.8 / FP16 22.5
RTX 4090 24GB / L4 24GB
最低:RTX 4090 24GB / L4 24GB
DeepSeek-V3deepseek-ai
JSON
2024-12-25deepseekDeepSeek-V3标准 / 主线671B / A37B160KINT4 617.3 / INT8 997.6 / FP16 1842.8
14x NVIDIA H200 141GB
最低:5x NVIDIA H200 141GB
Qwen2.5-7B-InstructQwen
JSON
2024-09-16qwenQwen2.5-7BInstruct7B128KINT4 8 / INT8 12 / FP16 20
RTX 4090 24GB / L40S 48GB
最低:RTX 3060 12GB / L4 24GB
Llama-3.1-8B-Instructmeta-llama
工具调用
2024-07-18metaLlama-3.1-8BInstruct8B125KINT4 11.9 / INT8 16.1 / FP16 26.2
L40S 48GB / A6000 48GB
最低:RTX 3060 12GB / RTX 4090 24GB