大模型本地部署

本地部署

ollama

部署自定义(huggingface/modelscope)大模型

支持部署GGUF格式大模型。GGUF是一种由开发者Georgi Gerganov提出的大模型文件格式,全称为GPT-Generated Unified Format。

ModelFile文件

ModelFile是ollama用于描述和配置自定义大模型部署的核心文件,通常命名为Modelfile(无扩展名,类似于Dockerfile)。

主要作用:

  • 指定基础模型、权重文件、推理参数等
  • 配置模型的系统提示、模板、对话格式等
  • 支持自定义模型微调、量化、分词器等参数

常见结构与字段示例:

1
2
3
4
5
FROM llama2:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "你是一个AI助手。"
TEMPLATE "<s>[INST] {{ .Prompt }} [/INST]"
  • FROM:指定基础模型(如llama2、qwen等)
  • PARAMETER:设置推理参数(如温度、top_p等)
  • SYSTEM:设定系统级提示词
  • TEMPLATE:自定义输入输出格式

自定义部署注意事项:

  • Modelfile需与模型权重文件(如.gguf)放在同一目录
  • 字段区分大小写,语法类似Dockerfile
  • 支持多种参数和模板灵活组合,便于适配不同场景

如何保持上下文记忆

  1. Transformer的自注意力机制和KV缓存技术。

  2. 上下文窗口的大小及其在本地部署中的配置。

  3. 应用层如何维护对话历史并传递给模型。

  4. 本地硬件资源对上下文长度的支持。

  5. 模型训练时的上下文长度与推理时的处理方式。

笔记本电脑部署工具对比

工具 界面类型 支持格式 硬件要求 特色功能 适用场景
Ollama 命令行 GGUF CPU/GPU 简单易用
一键安装模型
API接口
开发者
命令行爱好者
LM Studio 桌面GUI GGUF/GGML CPU/GPU 可视化界面
参数调节
模型管理
普通用户
图形界面偏好
Text Generation WebUI Web界面 多种格式 CPU/GPU 丰富插件
多模型支持
扩展性强
研究实验
功能定制
llama.cpp 命令行 GGUF CPU优先 轻量级
C++实现
低资源消耗
嵌入式
低配置设备

大模型本地部署
https://summerchengh.github.io/tech-blog/2025/05/28/大模型-本地部署工具/
Author
Your Name
Posted on
May 28, 2025
Licensed under