Ubuntu 26.04 上玩转本地 Qwen VL 模型:一条 snap 命令搞定

想在自己电脑上跑个多模态大模型,又不想折腾环境?Ubuntu 26.04 这次真给力,一行 snap install 就给我整明白了。


说实话,我之前对 snap 一直有点偏见——总觉得它又大又慢,像个“套壳怪”。但 Ubuntu 26.04 上这个 qwen-vl 的 snap 包,着实让我真香了一把。

好,今天这篇就专门聊聊,在 Ubuntu 26.04 上安装完 qwen-vl snap 之后,到底怎么把它用起来。顺便也说说,如果你不想用 snap,还有哪些骚操作。


第一步:装好了,先看看它活了没

装完别急着问怎么用。先跑这个命令:

qwen-vl status

我第一次执行的时候,输出长这样:

engine: intel-cpu
status: online
endpoints:
  openai: http://localhost:8326/v3

status: online 说明模型已经在后台跑起来了。注意它用的是 Intel CPU 引擎,也就是说就算你没有 NVIDIA 显卡,也能在 CPU 上跑这个模型——虽然慢一点,但至少能玩。

如果你有 NVIDIA 显卡并且装了驱动,它会自动识别并使用 GPU。这个“自动”是真的自动,不用你配任何东西。


第二种:命令行里直接“聊天”

snap 包自带了一个简单的终端聊天界面:

qwen-vl chat

然后就可以直接打字问问题了。比如我试了问:“Ubuntu 26.04 和 24.04 最大的区别是什么?”

它巴拉巴拉回了一堆,速度还行(我用的 Intel 12 代 i7,大概一秒蹦四五个字)。退出按 Ctrl-C

缺点:这个命令行界面只支持文字,不支持图片上传。作为一个“视觉语言模型”,不能用图片多少有点遗憾。想看图的,往下翻。


第三种:这才是 Qwen VL 的正确打开方式——API + 图形界面

这个 snap 本质上是跑了一个 OpenAI 风格的 API 服务。你可以用任何支持 OpenAI API 的客户端去连它,包括能上传图片的那种。

用 curl 测试一下

先随便问个问题,验证一下 API 能不能通:

curl -X POST http://localhost:8326/v3/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-vl",
    "messages": [
      {"role": "user", "content": "你好,简单介绍一下你自己"}
    ]
  }'

如果返回了一堆 JSON,里面带有 choices[0].message.content,那就说明 API 正常。

连上 Open WebUI,图形化 + 图片上传

这是我最推荐的方式。Open WebUI 是一个开源的、长得像 ChatGPT 那样的网页界面,支持传图片、多轮对话。

官方文档给了一条 Docker 命令,直接跑起来:

docker run --network=host --env PORT=9099 ghcr.io/open-webui/open-webui:0.6

跑完之后,浏览器打开 http://localhost:9099。第一次进需要注册个账号(本地账号,不用怕隐私问题)。

然后在后台设置里,把模型服务地址改成 http://localhost:8326/v3,保存。

重点来了——现在你可以上传一张图片,问模型“这张图里有什么?”“这是什么动物?”“帮我描述一下这张图的风格”……这才是多模态模型的正确玩法。

我传了一张我家猫的照片,问“这只猫是什么品种?”,它居然回我“可能是英短蓝白”,还挺准的……


怎么关?怎么重启?

有时候模型跑久了想重启一下,或者想把服务停下来释放内存:

bash

# 停止
sudo snap stop qwen-vl

# 重启
sudo snap restart qwen-vl

# 查看日志(如果出问题了)
snap logs qwen-vl

如果不想用 snap 呢?

我知道有些人天生抵触 snap(嗯,以前我也是)。那么除了 snap,还有两条路:

1. Docker 方案

如果你已经装了 Docker 和 NVIDIA Container Toolkit,可以用 vLLM 的镜像:

docker run -d --gpus all --network host \
  -v /path/to/Qwen2.5-VL-7B-Instruct:/model \
  --shm-size 32G \
  vllm/vllm-openai:latest \
  --model /model --port 8000

好处:环境干净,性能也不错。
坏处:你得先下载模型文件(用 git lfs 拉,7B 模型大概 15GB 左右),而且 Docker 镜像也不小。

2. 纯 Python 源码部署

这适合喜欢折腾的人。步骤略多:创建 conda 环境、装 PyTorch、装 transformers、qwen-vl-utils……我不骗你,我第一次手动配的时候,卡在 flash-attention 编译上整整俩小时。

我的建议:除非你有特殊的定制需求(比如改模型内部的推理逻辑),否则没必要自己从源码搞。snap 或者 Docker 足够 90% 的人用了。


几点提醒(来自真实翻车经验)

  1. 安装时加 --beta
    Ubuntu 官方文档说 qwen-vl 目前还在 Beta 通道,所以最好用:bashsudo snap install qwen-vl –beta我第一次没加 --beta,装了个旧版本,qwen-vl status 直接报错。
  2. CPU 模式确实慢
    如果你想愉快地用 CPU 跑 7B 模型,建议至少有 32GB 内存,并且耐心等待。一个简单问题的生成时间可能超过 30 秒。
  3. 显卡驱动必须装对
    如果你有 NVIDIA 显卡,先确保 nvidia-smi 能正常输出。Ubuntu 26.04 现在可以用 sudo apt install nvidia-driver-570 直接装(版本号以实际为准),比以前方便多了。
  4. 端口冲突
    qwen-vl 默认用了 8326 端口。如果你本地已经有其他服务占用了,可以翻翻文档看能不能改(目前 snap 版本似乎不支持命令行改端口,你可以先 stop 再自己用其他方式跑)。

总结一下

你的需求推荐方式
就想纯文本聊个天,图省事qwen-vl chat
想上传图片,多模态玩法snap + Open WebUI
不想用 snap,有 Docker 基础Docker + vLLM
硬核开发者,要改模型代码源码部署(自求多福)

对我个人来说,现在最常用的就是 snap + Open WebUI。日常写技术文章的时候,需要配个示意图、识别一下截图里的代码,直接拖进去问模型“这段代码是做什么的”,比自己重新读一遍快多了。

Ubuntu 26.04 这次在 AI 本地化上的努力,确实让我这种“不想折腾环境、只想快速用上模型”的人舒服了不少。哪怕你之前对 snap 有成见,也不妨试试这个 qwen-vl——它可能是第一个让我觉得“用 snap 也挺香”的应用。


你也在 Ubuntu 上跑过本地大模型吗?有没有遇到过什么坑?欢迎评论区聊聊~

本文首发于 58Linux技术博客,专注Ubuntu桌面使用、Linux服务器运维与网站搭建实战。

发表评论

粤ICP备10052831号 | © 2026 58Linux 技术笔记. All Rights Reserved. | 联系我们 | 关于本站
本站内容开放共享,仅供学习交流 | 专注 Ubuntu & Linux 实战教程
Built with GeneratePress