在摩尔线程 MTT S80 上部署 Ollama 实现 DeepSeek R1 多版本模型高效推理

张开发

• 2026/6/2 0:02:10 • 15 分钟阅读

分享文章

在摩尔线程 MTT S80 上部署 Ollama 实现 DeepSeek R1 多版本模型高效推理

1. 为什么选择摩尔线程MTT S80搭配Ollama最近在折腾国产显卡跑大模型的朋友应该都对摩尔线程MTT S80不陌生。这张卡最吸引我的地方在于它16GB的大显存——要知道在跑7B以上规模的模型时显存就是最金贵的资源。实测下来用MTT S80跑DeepSeek R1系列模型时7B版本能稳定在每秒20token的输出速度这个表现已经能满足很多实际应用场景了。Ollama这个工具简直就是为本地部署量身定制的。它把模型管理、容器化部署这些复杂操作都封装成了简单的命令行像我这样的懒人开发者简直爱不释手。最棒的是它支持模型版本管理可以随时切换不同规模的DeepSeek R1模型做对比测试这在评估模型效果时特别实用。2. 环境准备与驱动安装2.1 系统基础配置建议使用Ubuntu 20.04或22.04系统这两个版本对MTT S80的兼容性最好。我刚开始在CentOS上折腾了半天结果各种驱动冲突后来换成Ubuntu 22.04一次就装成功了。系统安装完成后记得先更新sudo apt update sudo apt upgrade -y2.2 显卡驱动安装摩尔线程的驱动安装比NVIDIA要简单不少但有几个坑需要注意。首先要去官网下载最新版的MUSA SDK当前最新是rc3.1.1版本这个驱动是纯计算版本意味着装完后你的图形界面可能会挂掉——所以千万别在生产环境的主机上直接装。安装命令很简单sudo ./MUSA-*.run装完后一定要验证驱动是否生效mthreads-smi如果能看到显卡信息输出说明驱动安装成功了。3. 容器环境配置3.1 Docker安装与配置建议安装Docker CE版本社区版足够用了。安装完成后需要特别配置容器运行时sudo apt install docker.io sudo systemctl enable --now docker然后安装MT Container Toolkit当前v1.9.0这个工具包是关键它让Docker能正确调用MTT S80的计算能力。安装完成后要运行配置脚本(cd /usr/bin/musa sudo ./docker setup $PWD)验证配置是否成功docker info | grep mthreads看到输出中有Default Runtime: mthreads就说明配置正确了。4. Ollama部署实战4.1 拉取和运行容器Ollama的官方镜像已经适配了MTT S80直接拉取即可docker pull mthreads/ollama启动容器时有个重要技巧——一定要挂载数据目录否则下次重启容器时下载的模型就没了docker run -it -d --nameollama -v /path/to/your/models:/root/.ollama mthreads/ollama这里我习惯把模型数据挂载到/home目录下比如我的实际命令是docker run -it -d --nameollama -v /home/user/ollama_models:/root/.ollama mthreads/ollama4.2 模型运行与测试进入容器后就可以开始玩模型了docker exec -it ollama bash ollama run deepseek-r1:7b --verbose第一次运行时会自动下载模型7B版本大概需要15GB左右的磁盘空间。--verbose参数会输出详细的性能数据对调试特别有用。我测试时发现一个实用技巧在另一个终端窗口运行watch -n 1 mthreads-smi这样可以实时监控显卡的显存占用和计算利用率。5. 多版本模型对比5.1 性能实测数据我在MTT S80上测试了DeepSeek R1的三个主要版本得到以下数据模型版本显存占用推理速度(tokens/s)响应延迟1.5B4.2GB450.8s7B10.5GB221.5s14B15.8GB122.3s从数据可以看出1.5B版本虽然速度快但在复杂任务上准确率明显不如大模型14B版本效果最好但速度较慢7B版本则是个不错的平衡点。5.2 实际应用建议如果是做实时对话应用7B版本是最佳选择。我在开发客服机器人时就用的这个版本响应速度完全够用。而如果是做内容生成这类对质量要求高的场景可以忍受稍慢速度的话14B版本的表现会好很多。有个小技巧可以用Ollama同时加载不同版本的模型通过API来动态切换。比如这样启动两个模型实例ollama run deepseek-r1:7b --port 11434 ollama run deepseek-r1:14b --port 11435然后在应用中根据任务复杂度来调用不同端口。6. 常见问题排查6.1 显存不足问题当运行14B模型时可能会遇到显存不足的报错。这时可以尝试以下解决方案关闭所有不必要的图形界面程序添加--numa参数限制CPU核心数ollama run deepseek-r1:14b --numa 4在docker run命令中添加内存限制--memory16g --memory-swap16g6.2 性能优化技巧通过调整这些参数可以获得更好的性能ollama run deepseek-r1:7b \ --num_threads 8 \ --batch_size 32 \ --ctx_size 2048其中ctx_size对长文本处理特别重要适当增大这个值可以显著提升长文本的连贯性。7. WebUI集成方案虽然命令行已经很强大了但有个可视化界面会更方便。我推荐使用Open WebUI这个项目docker run -d -p 3000:3000 -v /path/to/webui/data:/app/data \ --gpus all \ -e OLLAMA_API_BASE_URLhttp://ollama:11434 \ --name webui \ ghcr.io/open-webui/open-webui:main配置好后就能在浏览器里使用类似ChatGPT的界面了。这个方案特别适合给非技术同事演示模型能力。

更多文章

前端开发 2026/6/2 0:02:02

大模型中分词器、词表、词元分别指什么

大模型token运营中经常遇到的三个概念Tokenizer**、Vocabulary、Token。可以把****Tokenizer、Vocabulary、Token**理解成一条流水线里的三个层次。第一步是形成 Tokenizer（分词器）。它不是人工硬写出来的，通常是拿海量文本去“训练”出来的…

1. 前言本文详细介绍如何使用 kylin v10 iso 文件构建出 docker image，docker 版本为 20.10.7。 2. 构建 yum 离线源 2.1. 挂载 ISO 文件 mount Kylin-Server-V10-GFB-Release-030-ARM64.iso /media 2.2. 添加离线 repo 文件在/etc/yum.repos.d/下创建kylin-local…

张开发

前端开发 2026/4/13 19:47:39

深度学习理论精讲：从基础到大模型的完整路径

深度学习理论精讲：从基础到大模型的完整路径深度学习是后续学习自然语言处理，强化学习，计算机视觉等细分领域的基础，深度学习的应用也非常广泛，各个学科都会涉及，所以建议大家掌握基本的深度学习理论知识深…

张开发

在摩尔线程 MTT S80 上部署 Ollama 实现 DeepSeek R1 多版本模型高效推理

最新文章

Java Loom响应式迁移全链路拆解（从线程模型颠覆到Project Loom生产就绪）

从开发到分发：手把手教你用Inno Setup为Qt应用制作专业安装包（附脚本自定义技巧）

告别‘Hello World’就卡住：保姆级Android Studio安装与环境变量配置（Win/Mac通用）

保姆级教程：用STM32CubeIDE搞定STM32F407的USB虚拟串口（CDC）通信与速度测试

从老式工控机到树莓派：一文理清RS-232、RS-485和TTL电平的‘前世今生’与适用场景

Vitis自定义IP编译过了，Debug却卡在QEMU文件缺失？一个手动创建空文件的“土办法”救了我

推荐文章

相关文章

分享文章

更多文章

大模型中分词器、词表、词元分别指什么

GLM-4.1V-9B-Base真实作品：政务办事指南截图→办事条件+材料清单+流程图解

Golang怎么写博客系统后端_Golang博客系统教程【进阶】

AIAgent多模态感知能力跃迁，从实验室到产线的7类失效场景与实时校准方案，一线工程师亲测有效

NDS游戏补丁神器Xdelta_Gui保姆级教程（附常见问题解决）

5分钟快速制作启动盘！用EtchDroid让你的手机变身终极系统救援工具

告别Keil单调调试：用Ozone + J-Link可视化你的FreeRTOS任务状态（附工程配置避坑点）

卓文科技 SZWB1 微型断路器接入ThinkLink

Agentic AI时代程序员必备算法思想详解（附实战案例）次

巧妙运用长尾关键词提升SEO性能的完整指南

代码之外周刊（第期）：当技术让一切趋同，我们还剩什么？崩

深度学习理论精讲：从基础到大模型的完整路径