想在自己电脑上跑个多模态大模型,又不想折腾环境?Ubuntu 26.04 这次真给力,一行
snap install就给我整明白了。
说实话,我之前对 snap 一直有点偏见——总觉得它又大又慢,像个“套壳怪”。但 Ubuntu 26.04 上这个 qwen-vl 的 snap 包,着实让我真香了一把。
好,今天这篇就专门聊聊,在 Ubuntu 26.04 上安装完 qwen-vl snap 之后,到底怎么把它用起来。顺便也说说,如果你不想用 snap,还有哪些骚操作。
第一步:装好了,先看看它活了没
装完别急着问怎么用。先跑这个命令:
qwen-vl status
我第一次执行的时候,输出长这样:
engine: intel-cpu status: online endpoints: openai: http://localhost:8326/v3
status: online 说明模型已经在后台跑起来了。注意它用的是 Intel CPU 引擎,也就是说就算你没有 NVIDIA 显卡,也能在 CPU 上跑这个模型——虽然慢一点,但至少能玩。
如果你有 NVIDIA 显卡并且装了驱动,它会自动识别并使用 GPU。这个“自动”是真的自动,不用你配任何东西。
第二种:命令行里直接“聊天”
snap 包自带了一个简单的终端聊天界面:
qwen-vl chat
然后就可以直接打字问问题了。比如我试了问:“Ubuntu 26.04 和 24.04 最大的区别是什么?”
它巴拉巴拉回了一堆,速度还行(我用的 Intel 12 代 i7,大概一秒蹦四五个字)。退出按 Ctrl-C。
缺点:这个命令行界面只支持文字,不支持图片上传。作为一个“视觉语言模型”,不能用图片多少有点遗憾。想看图的,往下翻。
第三种:这才是 Qwen VL 的正确打开方式——API + 图形界面
这个 snap 本质上是跑了一个 OpenAI 风格的 API 服务。你可以用任何支持 OpenAI API 的客户端去连它,包括能上传图片的那种。
用 curl 测试一下
先随便问个问题,验证一下 API 能不能通:
curl -X POST http://localhost:8326/v3/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen-vl",
"messages": [
{"role": "user", "content": "你好,简单介绍一下你自己"}
]
}'
如果返回了一堆 JSON,里面带有 choices[0].message.content,那就说明 API 正常。
连上 Open WebUI,图形化 + 图片上传
这是我最推荐的方式。Open WebUI 是一个开源的、长得像 ChatGPT 那样的网页界面,支持传图片、多轮对话。
官方文档给了一条 Docker 命令,直接跑起来:
docker run --network=host --env PORT=9099 ghcr.io/open-webui/open-webui:0.6
跑完之后,浏览器打开 http://localhost:9099。第一次进需要注册个账号(本地账号,不用怕隐私问题)。
然后在后台设置里,把模型服务地址改成 http://localhost:8326/v3,保存。
重点来了——现在你可以上传一张图片,问模型“这张图里有什么?”“这是什么动物?”“帮我描述一下这张图的风格”……这才是多模态模型的正确玩法。
我传了一张我家猫的照片,问“这只猫是什么品种?”,它居然回我“可能是英短蓝白”,还挺准的……
怎么关?怎么重启?
有时候模型跑久了想重启一下,或者想把服务停下来释放内存:
bash
# 停止 sudo snap stop qwen-vl # 重启 sudo snap restart qwen-vl # 查看日志(如果出问题了) snap logs qwen-vl
如果不想用 snap 呢?
我知道有些人天生抵触 snap(嗯,以前我也是)。那么除了 snap,还有两条路:
1. Docker 方案
如果你已经装了 Docker 和 NVIDIA Container Toolkit,可以用 vLLM 的镜像:
docker run -d --gpus all --network host \ -v /path/to/Qwen2.5-VL-7B-Instruct:/model \ --shm-size 32G \ vllm/vllm-openai:latest \ --model /model --port 8000
好处:环境干净,性能也不错。
坏处:你得先下载模型文件(用 git lfs 拉,7B 模型大概 15GB 左右),而且 Docker 镜像也不小。
2. 纯 Python 源码部署
这适合喜欢折腾的人。步骤略多:创建 conda 环境、装 PyTorch、装 transformers、qwen-vl-utils……我不骗你,我第一次手动配的时候,卡在 flash-attention 编译上整整俩小时。
我的建议:除非你有特殊的定制需求(比如改模型内部的推理逻辑),否则没必要自己从源码搞。snap 或者 Docker 足够 90% 的人用了。
几点提醒(来自真实翻车经验)
- 安装时加
--beta
Ubuntu 官方文档说qwen-vl目前还在 Beta 通道,所以最好用:bashsudo snap install qwen-vl –beta我第一次没加--beta,装了个旧版本,qwen-vl status直接报错。 - CPU 模式确实慢
如果你想愉快地用 CPU 跑 7B 模型,建议至少有 32GB 内存,并且耐心等待。一个简单问题的生成时间可能超过 30 秒。 - 显卡驱动必须装对
如果你有 NVIDIA 显卡,先确保nvidia-smi能正常输出。Ubuntu 26.04 现在可以用sudo apt install nvidia-driver-570直接装(版本号以实际为准),比以前方便多了。 - 端口冲突
qwen-vl默认用了 8326 端口。如果你本地已经有其他服务占用了,可以翻翻文档看能不能改(目前 snap 版本似乎不支持命令行改端口,你可以先stop再自己用其他方式跑)。
总结一下
| 你的需求 | 推荐方式 |
|---|---|
| 就想纯文本聊个天,图省事 | qwen-vl chat |
| 想上传图片,多模态玩法 | snap + Open WebUI |
| 不想用 snap,有 Docker 基础 | Docker + vLLM |
| 硬核开发者,要改模型代码 | 源码部署(自求多福) |
对我个人来说,现在最常用的就是 snap + Open WebUI。日常写技术文章的时候,需要配个示意图、识别一下截图里的代码,直接拖进去问模型“这段代码是做什么的”,比自己重新读一遍快多了。
Ubuntu 26.04 这次在 AI 本地化上的努力,确实让我这种“不想折腾环境、只想快速用上模型”的人舒服了不少。哪怕你之前对 snap 有成见,也不妨试试这个 qwen-vl——它可能是第一个让我觉得“用 snap 也挺香”的应用。
你也在 Ubuntu 上跑过本地大模型吗?有没有遇到过什么坑?欢迎评论区聊聊~