大模型本地部署
本地部署
ollama
部署自定义(huggingface/modelscope)大模型
支持部署GGUF格式大模型。GGUF是一种由开发者Georgi Gerganov提出的大模型文件格式,全称为GPT-Generated Unified Format。
ModelFile文件
ModelFile是ollama用于描述和配置自定义大模型部署的核心文件,通常命名为Modelfile(无扩展名,类似于Dockerfile)。
主要作用:
- 指定基础模型、权重文件、推理参数等
- 配置模型的系统提示、模板、对话格式等
- 支持自定义模型微调、量化、分词器等参数
常见结构与字段示例:
1 | |
FROM:指定基础模型(如llama2、qwen等)PARAMETER:设置推理参数(如温度、top_p等)SYSTEM:设定系统级提示词TEMPLATE:自定义输入输出格式
自定义部署注意事项:
- Modelfile需与模型权重文件(如.gguf)放在同一目录
- 字段区分大小写,语法类似Dockerfile
- 支持多种参数和模板灵活组合,便于适配不同场景
如何保持上下文记忆
Transformer的自注意力机制和KV缓存技术。
上下文窗口的大小及其在本地部署中的配置。
应用层如何维护对话历史并传递给模型。
本地硬件资源对上下文长度的支持。
模型训练时的上下文长度与推理时的处理方式。
笔记本电脑部署工具对比
| 工具 | 界面类型 | 支持格式 | 硬件要求 | 特色功能 | 适用场景 |
|---|---|---|---|---|---|
| Ollama | 命令行 | GGUF | CPU/GPU | 简单易用 一键安装模型 API接口 |
开发者 命令行爱好者 |
| LM Studio | 桌面GUI | GGUF/GGML | CPU/GPU | 可视化界面 参数调节 模型管理 |
普通用户 图形界面偏好 |
| Text Generation WebUI | Web界面 | 多种格式 | CPU/GPU | 丰富插件 多模型支持 扩展性强 |
研究实验 功能定制 |
| llama.cpp | 命令行 | GGUF | CPU优先 | 轻量级 C++实现 低资源消耗 |
嵌入式 低配置设备 |
大模型本地部署
https://summerchengh.github.io/tech-blog/2025/05/28/大模型-本地部署工具/