LLM 模型参考
查看模型参数量、上下文、推荐 GPU 与部署特征。
LLM 模型参考
按模型系列、主线名称、变体和参数规模做快速筛选,便于在部署前完成模型级对比与初筛。
| 主线名称 | 模型变体 | 显存估算 | 推荐 GPU | |||||
|---|---|---|---|---|---|---|---|---|
MiMo-V2.5-ProXiaomiMiMo 工具调用 | 2026-04-27 | xiaomi | MiMo-V2.5-Pro | 标准 / 主线 | 1020B / A42B | 1024K | INT4 857.6 / INT8 1434.4 / FP16 2716.3 | 20x NVIDIA H200 141GB 最低:7x NVIDIA H200 141GB |
DeepSeek-V4-Prodeepseek-ai 工具调用 | 2026-04-22 | deepseek | DeepSeek-V4-Pro | 标准 / 主线 | 1600B / A49B | 1024K | INT4 1256.6 / INT8 2160 / FP16 4167.5 | 30x NVIDIA H200 141GB 最低:9x NVIDIA H200 141GB |
DeepSeek-V4-Flashdeepseek-ai 工具调用 | 2026-04-22 | deepseek | DeepSeek-V4-Flash | 标准 / 主线 | 284B / A13B | 1024K | INT4 200.4 / INT8 361.1 / FP16 718.3 | 6x NVIDIA H200 141GB 最低:2x NVIDIA H200 141GB |
MiniMax-M2.7MiniMaxAI 工具调用JSON | 2026-04-09 | minimax | MiniMax-M2.7 | 标准 / 主线 | 229B MoE / 10B active | 200K | INT4 311.2 / INT8 440.4 / FP16 728.3 | 6x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
GLM-5.1zai-org 工具调用 | 2026-04-03 | zai | GLM-5.1 | 标准 / 主线 | 753.86B | 198K | INT4 563.9 / INT8 990.8 / FP16 1939.6 | 25x H100 80GB 最低:8x H100 80GB |
WebWorld-32BQwen | 2026-02-13 | qwen | WebWorld-32B | 标准 / 主线 | 32B | 40K | INT4 33.2 / INT8 52.6 / FP16 95.8 | NVIDIA H200 141GB 最低:NVIDIA RTX A6000 48GB / NVIDIA A40 48GB |
WebWorld-14BQwen | 2026-02-13 | qwen | WebWorld-14B | 标准 / 主线 | 14B | 40K | INT4 16.9 / INT8 25.2 / FP16 44.1 | NVIDIA RTX A6000 48GB / NVIDIA A40 48GB 最低:NVIDIA RTX A6000 48GB / NVIDIA TITAN RTX 24GB |
WebWorld-8BQwen | 2026-02-13 | qwen | WebWorld-8B | 标准 / 主线 | 8B | 40K | INT4 12.4 / INT8 16.7 / FP16 27.4 | NVIDIA RTX A6000 48GB / NVIDIA A40 48GB 最低:NVIDIA RTX A6000 48GB / GeForce RTX 4060 Ti 16GB |
MiniMax-M2.5MiniMaxAI 工具调用JSON | 2026-02-12 | minimax | MiniMax-M2.5 | 标准 / 主线 | 229B MoE / 10B active | 192K | INT4 311.2 / INT8 440.4 / FP16 728.3 | 6x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
MiniCPM-SALAOpenBMB 工具调用JSON | 2026-02-11 | openbmb | MiniCPM-SALA | 标准 / 主线 | 9B | 512K | INT4 12 / INT8 18 / FP16 30 | L40S 48GB / A100 80GB 最低:RTX 4090 24GB / L40S 48GB |
GLM-5zai-org 工具调用 | 2026-02-11 | zai | GLM-5 | 标准 / 主线 | 744B / A40B | 198K | INT4 557.4 / INT8 979 / FP16 1915.8 | 14x NVIDIA H200 141GB 最低:4x NVIDIA H200 141GB |
Step-3.5-Flashstepfun-ai 工具调用JSON | 2026-02-01 | stepfun | Step-3.5-Flash | 标准 / 主线 | 196B MoE / 11B active | 256K | INT4 288.6 / INT8 399.4 / FP16 646.3 | 5x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
Qwen3-Coder-NextQwen 工具调用JSON | 2026-01-30 | qwen | Qwen3-Coder-Next | 标准 / 主线 | 80B-A3B | 256K | INT4 62.5 / INT8 120 / FP16 240 | - 最低:- |
GLM-4.7-Flashzai-org 工具调用JSON | 2026-01-19 | zai | GLM-4.7-Flash | 标准 / 主线 | MoE Flash | 198K | INT4 227.8 / INT8 289.4 / FP16 426.4 | 4x NVIDIA H200 141GB 最低:2x NVIDIA H200 141GB |
GLM-4.7zai-org 工具调用JSON | 2025-12-22 | zai | GLM-4.7 | 标准 / 主线 | MoE | 198K | INT4 404.8 / INT8 611.1 / FP16 1069.8 | 8x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
MiniMax-M2.1MiniMaxAI 工具调用 | 2025-12-20 | minimax | MiniMax-M2.1 | 标准 / 主线 | 229B MoE | 192K | INT4 171.9 / INT8 305.1 / FP16 600.9 | 5x NVIDIA H200 141GB 最低:2x NVIDIA H200 141GB |
MiMo-V2-FlashXiaomiMiMo 工具调用JSON | 2025-12-16 | xiaomi | MiMo-V2-Flash | 标准 / 主线 | 309B / A15B | 256K | INT4 366.3 / INT8 541.3 / FP16 930.1 | 7x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
DeepSeek-V3.2deepseek-ai 工具调用JSON | 2025-12-01 | deepseek | DeepSeek-V3.2 | 标准 / 主线 | 671B MoE / 37B active | 160K | INT4 617.3 / INT8 997.6 / FP16 1842.8 | 14x NVIDIA H200 141GB 最低:5x NVIDIA H200 141GB |
DeepSeek-V3.2-Specialedeepseek-ai 工具调用JSON | 2025-11-28 | deepseek | DeepSeek-V3.2-Speciale | 标准 / 主线 | 671B MoE / 37B active | 160K | INT4 617.3 / INT8 997.6 / FP16 1842.8 | 14x NVIDIA H200 141GB 最低:5x NVIDIA H200 141GB |
Kimi-K2-Thinkingmoonshotai 工具调用JSON | 2025-11-04 | moonshot | Kimi-K2 | Thinking | 1100B MoE / 32B active | 256K | INT4 911.4 / INT8 1532.3 / FP16 2912.2 | 21x NVIDIA H200 141GB 最低:7x NVIDIA H200 141GB |
Kimi-Linear-48B-A3B-Instructmoonshotai 工具调用JSON | 2025-10-30 | moonshot | Kimi-Linear-48B-A3B | Instruct | 48B MoE / 3B active | 1024K | INT4 119.6 / INT8 146.6 / FP16 206.5 | 2x NVIDIA H200 141GB 最低:NVIDIA H200 141GB |
MiniMax-M2MiniMaxAI 工具调用JSON | 2025-10-22 | minimax | MiniMax-M2 | 标准 / 主线 | 229B MoE / 10B active | 192K | INT4 311.2 / INT8 440.4 / FP16 728.3 | 6x NVIDIA H200 141GB 最低:3x NVIDIA H200 141GB |
GLM-4.6zai-org 工具调用JSON | 2025-09-29 | zai | GLM-4.6 | 标准 / 主线 | 355B | 198K | INT4 258.9 / INT8 459.9 / FP16 906.7 | 12x H100 80GB 最低:4x H100 80GB |
DeepSeek-V3.2-Expdeepseek-ai 工具调用JSON | 2025-09-29 | deepseek | DeepSeek-V3.2-Exp | 标准 / 主线 | 671B / A37B | 160K | INT4 522 / INT8 902.3 / FP16 1747.5 | 13x NVIDIA H200 141GB 最低:4x NVIDIA H200 141GB |
Qwen3-Next-80B-A3B-ThinkingQwen | 2025-09-09 | qwen | Qwen3-Next-80B-A3B | Thinking | 80B-A3B | 256K | INT4 62.5 / INT8 120 / FP16 240 | - 最低:- |
Qwen3-Next-80B-A3B-InstructQwen 工具调用JSON | 2025-09-09 | qwen | Qwen3-Next-80B-A3B | Instruct | 80B-A3B | 256K | INT4 62.5 / INT8 120 / FP16 240 | - 最低:- |
Kimi-K2-Instruct-0905moonshotai 工具调用JSON | 2025-09-03 | moonshot | Kimi-K2 | Instruct | 1000B MoE / 32B active | 256K | INT4 842.7 / INT8 1407.5 / FP16 2662.4 | 19x NVIDIA H200 141GB 最低:6x NVIDIA H200 141GB |
DeepSeek-V3.1deepseek-ai 工具调用JSON | 2025-08-21 | deepseek | DeepSeek-V3.1 | 标准 / 主线 | 671B MoE / 37B active | 125K | INT4 617.3 / INT8 997.6 / FP16 1842.8 | 14x NVIDIA H200 141GB 最低:5x NVIDIA H200 141GB |
Qwen3-4B-Thinking-2507Qwen 工具调用JSON | 2025-08-05 | qwen | Qwen3-4B | Thinking | 4B | 256K | INT4 3.1 / INT8 6 / FP16 12 | - 最低:- |
Qwen3-4B-Instruct-2507Qwen 工具调用JSON | 2025-08-05 | qwen | Qwen3-4B | Instruct | 4B | 256K | INT4 3.1 / INT8 6 / FP16 12 | - 最低:- |
Qwen3-Coder-30B-A3B-InstructQwen 工具调用JSON | 2025-07-31 | qwen | Qwen3-Coder-30B-A3B | Instruct | 30B-A3B | 256K | INT4 23.4 / INT8 45 / FP16 90 | - 最低:- |
Qwen3-30B-A3B-Thinking-2507Qwen 工具调用JSON | 2025-07-29 | qwen | Qwen3-30B-A3B | Thinking | 30B-A3B | 256K | INT4 23.4 / INT8 45 / FP16 90 | - 最低:- |
Qwen3-30B-A3B-Instruct-2507Qwen 工具调用JSON | 2025-07-28 | qwen | Qwen3-30B-A3B | Instruct | 30B-A3B | 256K | INT4 23.4 / INT8 45 / FP16 90 | - 最低:- |
Qwen3-235B-A22B-Thinking-2507Qwen 工具调用JSON | 2025-07-25 | qwen | Qwen3-235B-A22B | Thinking | 235B-A22B | 256K | INT4 183.6 / INT8 352.5 / FP16 705 | - 最低:- |
Qwen3-Coder-480B-A35B-InstructQwen 工具调用JSON | 2025-07-22 | qwen | Qwen3-Coder-480B-A35B | Instruct | 480B-A35B | 256K | INT4 375 / INT8 720 / FP16 1440 | - 最低:- |
Qwen3-235B-A22B-Instruct-2507Qwen 工具调用JSON | 2025-07-21 | qwen | Qwen3-235B-A22B | Instruct | 235B-A22B | 256K | INT4 183.6 / INT8 352.5 / FP16 705 | - 最低:- |
GLM-4.5-Airzai-org 工具调用 | 2025-07-20 | zai | GLM-4.5-Air | 标准 / 主线 | 110.47B | 128K | INT4 84.4 / INT8 146.5 / FP16 285.7 | 4x H100 80GB 最低:2x H100 80GB |
GLM-4.5zai-org 工具调用 | 2025-07-20 | zai | GLM-4.5 | 标准 / 主线 | 355B | 128K | INT4 258.9 / INT8 459.9 / FP16 906.7 | 12x H100 80GB 最低:4x H100 80GB |
Kimi-K2-Instructmoonshotai 工具调用JSON | 2025-07-11 | moonshot | Kimi-K2 | Instruct | 1000B / A32B | 128K | INT4 747.4 / INT8 1312.2 / FP16 2567.2 | 19x NVIDIA H200 141GB 最低:6x NVIDIA H200 141GB |
MiniMax-M1-80k-hfMiniMaxAI 工具调用JSON | 2025-07-01 | minimax | MiniMax-M1-80k-hf | 标准 / 主线 | 456B MoE / 45.9B active | 1,000,000 | INT4 470.6 / INT8 730.9 / FP16 1309.4 | 10x NVIDIA H200 141GB 最低:4x NVIDIA H200 141GB |
MiniMax-Text-01-hfMiniMaxAI 工具调用JSON | 2025-06-03 | minimax | MiniMax-Text-01-hf | 标准 / 主线 | 456B MoE / 45.9B active | 1,000,000 | INT4 470.6 / INT8 730.9 / FP16 1309.4 | 10x NVIDIA H200 141GB 最低:4x NVIDIA H200 141GB |
SynLogic-7BMiniMaxAI | 2025-06-03 | minimax | SynLogic-7B | 标准 / 主线 | 7B | 128K | INT4 8.9 / INT8 12.6 / FP16 21.8 | RTX 4090 24GB / L4 24GB 最低:RTX 3060 12GB / RTX 4090 24GB |
MiMo-7B-RL-0530XiaomiMiMo 工具调用JSON | 2025-05-30 | xiaomi | MiMo-7B | RL | 8B | 64K | INT4 6 / INT8 10 / FP16 16 | RTX 4090 24GB / L40S 48GB 最低:RTX 4060 Ti 16GB / RTX 4090 24GB |
SynLogic-Mix-3-32BMiniMaxAI | 2025-05-30 | minimax | SynLogic-Mix-3-32B | 标准 / 主线 | 32B | 128K | INT4 33.2 / INT8 52.6 / FP16 95.8 | 2x H100 80GB 最低:L40S 48GB / A6000 48GB |
SynLogic-32BMiniMaxAI | 2025-05-30 | minimax | SynLogic-32B | 标准 / 主线 | 32B | 128K | INT4 33.2 / INT8 52.6 / FP16 95.8 | 2x H100 80GB 最低:L40S 48GB / A6000 48GB |
DeepSeek-R1-0528-Qwen3-8Bdeepseek-ai 工具调用 | 2025-05-29 | deepseek | DeepSeek-R1-0528-Qwen3-8B | 标准 / 主线 | 8B | 128K | INT4 5 / INT8 9.6 / FP16 19.2 | - 最低:- |
DeepSeek-R1-0528deepseek-ai 工具调用 | 2025-05-28 | deepseek | DeepSeek-R1 | 标准 / 主线 | 685B / A37B | 160K | INT4 531.6 / INT8 919.8 / FP16 1782.4 | 13x NVIDIA H200 141GB 最低:4x NVIDIA H200 141GB |
Qwen3-235B-A22BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-235B-A22B | 标准 / 主线 | 235B-A22B | 40K | INT4 146.9 / INT8 282 / FP16 564 | - 最低:- |
Qwen3-32BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-32B | 标准 / 主线 | 32B | 40K | INT4 20 / INT8 38.4 / FP16 76.8 | - 最低:- |
Qwen3-30B-A3BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-30B-A3B | 标准 / 主线 | 30B-A3B | 40K | INT4 18.8 / INT8 36 / FP16 72 | - 最低:- |
Qwen3-14BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-14B | 标准 / 主线 | 14B | 40K | INT4 8.8 / INT8 16.8 / FP16 33.6 | L40S 48GB / A100 80GB 最低:RTX 4090 24GB |
Qwen3-8BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-8B | 标准 / 主线 | 8B | 40K | INT4 5 / INT8 9.6 / FP16 19.2 | - 最低:- |
Qwen3-4BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-4B | 标准 / 主线 | 4B | 40K | INT4 2.5 / INT8 4.8 / FP16 9.6 | - 最低:- |
Qwen3-1.7BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-1.7B | 标准 / 主线 | 1.7B | 40K | INT4 1.1 / INT8 2 / FP16 4.1 | - 最低:- |
Qwen3-0.6BQwen 工具调用JSON | 2025-04-27 | qwen | Qwen3-0.6B | 标准 / 主线 | 0.6B | 40K | INT4 0.4 / INT8 0.7 / FP16 1.4 | - 最低:- |
GLM-Z1-Rumination-32B-0414zai-org 工具调用JSON | 2025-04-13 | zai | GLM-Z1-Rumination-32B | 标准 / 主线 | 32B | 128K | INT4 32.8 / INT8 52.2 / FP16 95.4 | 2x H100 80GB 最低:L40S 48GB / A6000 48GB |
GLM-Z1-32B-0414zai-org 工具调用JSON | 2025-04-08 | zai | GLM-Z1-32B | 标准 / 主线 | 32B | 32K | INT4 26.8 / INT8 46.2 / FP16 89.3 | 2x H100 80GB 最低:L40S 48GB / A6000 48GB |
GLM-Z1-9B-0414zai-org 工具调用JSON | 2025-04-08 | zai | GLM-Z1-9B | 标准 / 主线 | 9B | 32K | INT4 9.7 / INT8 14.5 / FP16 26.6 | L40S 48GB / A6000 48GB 最低:RTX 3060 12GB / RTX 4090 24GB |
GLM-4-32B-0414zai-org 工具调用JSON | 2025-04-07 | zai | GLM-4-32B | 标准 / 主线 | 32B | 32K | INT4 24 / INT8 39 / FP16 76 | 2x L40S 48GB / A100 80GB 最低:RTX 4090 24GB / L40S 48GB |
GLM-4-9B-0414zai-org 工具调用JSON | 2025-04-07 | zai | GLM-4-9B | 标准 / 主线 | 9B | 32K | INT4 9 / INT8 12 / FP16 22 | RTX 4090 24GB / L40S 48GB 最低:RTX 4090 24GB / L4 24GB |
DeepSeek-V3-0324deepseek-ai 工具调用JSON | 2025-03-24 | deepseek | DeepSeek-V3 | 标准 / 主线 | 684.53B | 160K | INT4 798.5 / INT8 1405 / FP16 2752.9 | 35x H100 80GB 最低:10x H100 80GB |
Moonlight-16B-A3B-Instructmoonshotai 工具调用 | 2025-02-22 | moonshot | Moonlight-16B-A3B | Instruct | 16B | 8K | INT4 14.6 / INT8 23.8 / FP16 44.7 | L40S 48GB / A6000 48GB 最低:RTX 4090 24GB / L4 24GB |
Moonlight-16B-A3Bmoonshotai 工具调用 | 2025-02-22 | moonshot | Moonlight-16B-A3B | 标准 / 主线 | 16B | 8K | INT4 14.6 / INT8 23.8 / FP16 44.7 | L40S 48GB / A6000 48GB 最低:RTX 4090 24GB / L4 24GB |
DeepSeek-R1deepseek-ai | 2025-01-20 | deepseek | DeepSeek-R1 | 标准 / 主线 | 684.53B | 160K | INT4 84.6 / INT8 107.1 / FP16 156.9 | 2x H100 80GB 最低:2x H100 80GB |
DeepSeek-R1-Distill-Qwen-32Bdeepseek-ai 工具调用JSON | 2025-01-20 | deepseek | DeepSeek-R1-Distill-Qwen-32B | 标准 / 主线 | 32B | 128K | INT4 30 / INT8 44 / FP16 82 | A100 80GB / H100 80GB 最低:L40S 48GB / A100 80GB |
DeepSeek-R1-Distill-Qwen-14Bdeepseek-ai 工具调用JSON | 2025-01-20 | deepseek | DeepSeek-R1-Distill-Qwen-14B | 标准 / 主线 | 14B | 128K | INT4 14 / INT8 24 / FP16 38 | L40S 48GB / A100 80GB 最低:RTX 4090 24GB / L40S 48GB |
DeepSeek-R1-Distill-Llama-70Bdeepseek-ai 工具调用JSON | 2025-01-20 | deepseek | DeepSeek-R1-Distill-Llama-70B | 标准 / 主线 | 70B | 128K | INT4 52 / INT8 92 / FP16 170 | 2x A100 80GB / 2x H100 80GB 最低:A100 80GB / H100 80GB |
MiniMax-Text-01MiniMaxAI 工具调用JSON | 2025-01-12 | minimax | MiniMax-Text-01 | 标准 / 主线 | 4B | 10000K | INT4 15.6 / INT8 17.8 / FP16 22.5 | RTX 4090 24GB / L4 24GB 最低:RTX 4090 24GB / L4 24GB |
DeepSeek-V3deepseek-ai JSON | 2024-12-25 | deepseek | DeepSeek-V3 | 标准 / 主线 | 671B / A37B | 160K | INT4 617.3 / INT8 997.6 / FP16 1842.8 | 14x NVIDIA H200 141GB 最低:5x NVIDIA H200 141GB |
Qwen2.5-7B-InstructQwen JSON | 2024-09-16 | qwen | Qwen2.5-7B | Instruct | 7B | 128K | INT4 8 / INT8 12 / FP16 20 | RTX 4090 24GB / L40S 48GB 最低:RTX 3060 12GB / L4 24GB |
Llama-3.1-8B-Instructmeta-llama 工具调用 | 2024-07-18 | meta | Llama-3.1-8B | Instruct | 8B | 125K | INT4 11.9 / INT8 16.1 / FP16 26.2 | L40S 48GB / A6000 48GB 最低:RTX 3060 12GB / RTX 4090 24GB |