大模型训练推理部署框架
大模型分布式训练框架
主流框架对比
| 框架 | 开发机构 | 主要特性 | 并行策略 | 优势 | 适用场景 |
|---|---|---|---|---|---|
| DeepSpeed | Microsoft | ZeRO优化器 混合精度训练 推理优化 |
数据并行 模型并行 流水线并行 |
内存优化 易于使用 推理支持 |
大规模预训练 微调 推理部署 |
| Megatron-LM | NVIDIA | Transformer优化 混合并行 序列并行 |
张量并行 流水线并行 数据并行 |
Transformer专门优化 高性能 大规模支持 |
超大规模语言模型 GPT/BERT训练 |
| FairScale | Meta | FSDP 模块化设计 混合精度 |
数据并行 模型并行 专家并行 |
模块化 易集成 内存高效 |
研究实验 中等规模训练 |
| Horovod | Uber | 分布式训练 多框架支持 高效通信 |
数据并行 梯度聚合 |
简单易用 框架无关 成熟稳定 |
传统深度学习 多框架环境 |
| ColossalAI | HPC-AI Tech | 自动并行 异构训练 低资源训练 |
混合并行 ZeRO-like优化 |
自动化程度高 资源利用率高 易于扩展 |
资源受限环境 自动优化需求 |
DeepSpeed
GPU底层优化
训练
数据并行策略
模型并行
推理
压缩
Megtron
大模型推理部署框架
主流推理框架对比
| 框架 | 开发机构 | 主要特性 | 优化技术 | 适用场景 | 优势 |
|---|---|---|---|---|---|
| vLLM | UC Berkeley | PagedAttention 连续批处理 高吞吐量 |
KV缓存分页 CUDA Graph 推测解码 |
高并发推理 在线服务 |
内存效率高 吞吐量大 |
| Ollama | Ollama Team | 本地部署 GGUF支持 简单易用 |
量化推理 CPU优化 |
个人开发 本地测试 |
上手简单 资源友好 |
| llama.cpp | Georgi Gerganov | C/C++实现 跨平台 轻量级 |
量化推理 CPU优化 内存映射 |
边缘设备 嵌入式 |
资源需求低 部署灵活 |
| TensorRT-LLM | NVIDIA | GPU优化 图优化 混合精度 |
Kernel融合 量化加速 批处理优化 |
NVIDIA GPU 生产部署 |
推理速度快 显存优化 |
| Text Generation WebUI | oobabooga | Web界面 多模型支持 插件系统 |
多后端集成 参数调节 |
研究实验 模型测试 |
界面友好 功能丰富 |
| FastChat | LMSYS | 分布式推理 Web服务 多模型 |
负载均衡 异步处理 |
在线服务 模型评测 |
易于扩展 稳定可靠 |
| LMDeploy | 上海AI实验室 | 量化推理 多端部署 高性能 |
TurboMind引擎 KV缓存优化 |
企业部署 大规模推理 |
工程优化 性能稳定 |
| OpenLLM | BentoML | 模型服务化 API标准化 容器化 |
自动批处理 模型管理 |
云端部署 微服务 |
工程化强 易集成 |
Ollama
vLLM
推理加速
vLLM支持的推理加速技术:
- Paged Attention
- Continuous batching of incoming requests
- CUDA/HIP graph
- 量化:GPTQ, AWQ, AutoRound, INT4, INT8, and FP8
- 优化的CUDA kernels:集成了Flash Attention和FlashInfer
- Speculative decoding
- Chunked prefill
- Transformer系列模型(例如:LLaMa)
- 混合专家大语言模型(例如:Mixtral、Deepseek-V2 and V3)
- Embedding模型(例如:E5-Mistral)
- 多模态大模型(例如:LLaVA)
大模型微调工具
主流微调框架对比
| 框架 | 开发机构 | 主要特性 | 支持技术 | 优势 | 适用场景 |
|---|---|---|---|---|---|
| LlamaFactory | HuggingFace | 统一接口 100+模型支持 Web界面 |
LoRA/QLoRA 全参数微调 RLHF |
模型支持全面 操作简单 可视化 |
快速原型 研究实验 |
| Unsloth | Unsloth AI | 内存优化 算子融合 LoRA专门优化 |
LoRA/QLoRA Flash Attention 量化训练 |
速度提升2-5倍 显存节省 |
资源受限 快速微调 |
| DeepSpeed | Microsoft | ZeRO优化器 分布式训练 混合精度 |
数据并行 模型并行 梯度累积 |
大规模训练 内存优化 |
企业级训练 大规模数据 |
| PEFT | HuggingFace | 参数高效微调 多种PEFT方法 |
LoRA/AdaLoRA Adapter P-Tuning |
参数效率高 易于集成 |
研究开发 快速实验 |
| Alpaca-LoRA | Stanford | 指令微调 LoRA优化 轻量化 |
LoRA 指令微调 数据构造 |
简单易用 成本低 |
教学示例 快速上手 |
| QLoRA | UW/Meta | 4-bit量化 高效微调 内存优化 |
4-bit量化 LoRA 分页优化器 |
极低显存需求 保持性能 |
消费级GPU 资源受限 |
| FastChat | LMSYS | 对话模型训练 多轮对话 评估框架 |
SFT RLHF 对话优化 |
对话专门优化 评估完整 |
对话机器人 聊天应用 |
| ChatGLM-Tuning | 社区开源 | ChatGLM专门优化 中文友好 轻量化 |
LoRA 中文优化 指令微调 |
中文效果好 部署简单 |
中文应用 本土化需求 |
LlamaFactory
Unsloth
提升微调速度2-5倍。
内存优化
算子融合
针对LoRA的特殊优化
可扩展的AI工具
Ray
算力生态
显卡
国际市场GPU市场占比
| 厂商 | 市场份额 | 主要产品线 | 优势 |
|---|---|---|---|
| NVIDIA | 约80-85%的独立GPU市场 | GeForce RTX系列 (消费级) Tesla/Quadro系列 (专业级) H100/A100/V100 (数据中心/AI训练) |
CUDA生态、AI训练优化、技术领先 |
| AMD | 约10-15%的独立GPU市场 | Radeon RX系列 (消费级) Instinct MI系列 (数据中心/AI) |
性价比、开源生态 |
| Intel | 约5%的独立GPU市场 | Arc系列 (消费级) Ponte Vecchio (数据中心) |
集成显卡市场主导地位 |
| 其他厂商 | 约1-2% | Imagination Technologies、ARM Mali等 | 细分市场应用 |
AI训练专用GPU市场
- NVIDIA: 95%+的市场份额
- 主要产品: H100、A100、V100
- 应用场景: 大模型训练、推理、数据中心
市场趋势
- 生态建设: CUDA vs ROCm vs OneAPI竞争
云服务公司
全球云服务市场占比
| 云服务商 | 全球市场份额 | 主要服务 | 特色优势 |
|---|---|---|---|
| Amazon Web Services (AWS) | 约32% | EC2, S3, Lambda, SageMaker | 服务最全面、生态最成熟 |
| Microsoft Azure | 约23% | Azure VM, Azure ML, Cognitive Services | 企业集成、混合云优势 |
| Google Cloud Platform (GCP) | 约10% | Compute Engine, Vertex AI, BigQuery | AI/ML技术领先、数据分析 |
| 阿里云 (Alibaba Cloud) | 约5% | ECS, PAI, 通义千问 | 亚太市场领先 |
| 其他云服务商 | 约30% | IBM Cloud, Oracle Cloud, 腾讯云等 | 细分领域专业化 |
中国云服务市场占比
| 云服务商 | 中国市场份额 | 主要产品 | 本土化优势 |
|---|---|---|---|
| 阿里云 | 约40% | ECS, PAI平台, 通义千问 | 电商生态、本土化服务 |
| 腾讯云 | 约18% | CVM, TI平台, 混元大模型 | 社交游戏生态、To B转型 |
| 华为云 | 约15% | ECS, ModelArts, 盘古大模型 | 企业市场、自研芯片 |
| 百度智能云 | 约8% | BCC, 飞桨平台, 文心一言 | AI技术积累、搜索生态 |
| 天翼云 | 约7% | 云主机, 天翼云AI | 运营商背景、政企市场 |
| 京东云 | 约3% | 云主机, 言犀大模型 | 零售供应链、物流优势 |
| 其他 | 约9% | 金山云、UCloud、青云等 | 垂直领域专业化 |
AI大模型云服务对比
| 云服务商 | 大模型产品 | GPU资源 | 特色能力 |
|---|---|---|---|
| 阿里云 | 通义千问系列 | A100/H100集群 | 多模态、API调用 |
| 腾讯云 | 混元大模型 | A100/V100集群 | 文档理解、代码生成 |
| 华为云 | 盘古大模型 | 昇腾910集群 | 行业定制、自研芯片 |
| 百度智能云 | 文心一言 | A100集群 | 中文优化、搜索集成 |
| AWS | Bedrock平台 | P4/P5实例 | 多模型集成、企业级 |
| Azure | OpenAI服务 | ND系列 | GPT-4集成、Office协同 |
| GCP | Vertex AI | TPU v4/v5 | 自研TPU、开源友好 |
参考
LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models
GPU芯片
大模型训练推理部署框架
https://summerchengh.github.io/tech-blog/2025/08/06/大模型-训练部署推理架构/