Ollama 本地部署 DeepSeek
Ollama 本地部署 DeepSeek
[TOC]
1、官网
https://ollama.com/
2、deepseek-r1 模型
2.1、Ollama 模型库官网
https://ollama.com/library/deepseek-r1

2.2、模型选择
DeepSeek 中的 1.5B、7B、8B 等数字通常代表模型的参数量,即模型中包含的参数(weights)的数量。B 是 Billion(十亿)的缩写,因此:
- 1.5B 表示模型有 15 亿个参数
- 7B 表示模型有 70 亿个参数
- 8B 表示模型有 80 亿个参数
2.3、参数量对模型的影响
- 性能与效果: 参数量越大,模型通常具有更强的表达能力和泛化能力,因此在复杂任务上效果更好。
- 计算资源: 参数量越大,对显存、内存、计算能力的要求也越高。
- 响应速度: 参数量越大,推理速度通常越慢。
模型规模 | 生成速度(token/秒) | 显存占用(4-bit量化) | 典型响应延迟(1K tokens) |
---|---|---|---|
1.5B | 25-30 | 3.2GB | <0.5秒 |
7B | 15-20 | 5.1GB | 1-2秒 |
32B | 5-8 | 18GB | 4-6秒 |
671B | 1.5-3(多卡加速) | 240GB(分布式) | 10-15秒 |
3、命令安装
ollama run deepseek-r1:7b

安装完成后效果

4、关键配置说明
4.1、量化加速
ollama run deepseek-r1:7b --quantize 4bit
- 通过
--quantize 4bit
参数可降低显存占用(如7B模型显存需求从8GB降至5GB)。
4.2、硬件优化建议
- 70B/671B模型:需NVIDIA NVLink互联的多卡服务器,推荐使用vLLM框架提升吞吐量。
- 消费级显卡:RTX 4090(24GB显存)可支持32B模型4-bit量化版推理。
5、通过Ollama运行DeepSeek
5.1、启动
ollama run deepseek-r1:7b
ollama run jindeepseek

5.2、退出
/bye

6、别名
1. 创建Modelfile文件
新建一个文本文件(建议命名为jin-deepseek-modelfile
),内容只需一行:
FROM deepseek-r1:7b
2. 构建新模型别名
在CMD中执行(注意文件路径):
ollama create jinds -f D:\Ollama\names\jin-deepseek-modelfile
3. 验证及使用
查看模型列表:
ollama list
会显示
jindeepseek:latest
和原模型deepseek-r1:7b
启动新别名:
ollama run jindeepseek
原理说明
通过FROM
指令创建了指向原模型的轻量级副本,实际运行时:
- 参数继承:新模型默认继承原模型的全部参数(如上下文长度、温度值等)
- 磁盘占用:仅新增约20KB的元数据文件,不重复存储模型本体
扩展用法
若需定制参数,可在Modelfile中追加配置(示例):
ModelfileFROM deepseek-r1:7b
PARAMETER temperature 0.7 # 控制生成随机性
SYSTEM """你是一个精通宋词的AI助手""" # 自定义角色设定
注意事项
路径问题:若提示
Error: open ... no such file
,请检查Modelfile路径是否包含空格(如有空格需用双引号包裹路径)冲突处理
:若需覆盖已有模型,添加
--force
参数:
ollama create jindeepseek -f Modelfile --force
6、通过 Cherry Studio 集成 Ollama
http://localhost:11434