云端跑Qwen3，本地调用！算网Qwen3镜像上线

张

张建站

2026/4/14 11:13:20

10分钟阅读

阿里的Qwen3当前仍然是非常强的开源模型之一。Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。特别是在 STEM、编码和推理等领域Qwen3 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。Qwen3 支持 119 种语言和方言具备强大的多语言指令跟随与翻译能力而且模型的 Agent 和代码能力得到了增强。支持 128K tokens 的超长上下文窗口并具备思考与非思考模式无缝切换的能力被称为“混合推理模型”。对简单需求可低算力“秒回”答案对复杂问题则可多步骤“深度思考”。如果你想尝试开发智能客服与对话系统、电商等领域专属AI助手、RAG知识库系统、智能问答应用等或者只是想在本地尝试大模型又苦于没有能跑的电脑快来算网部署一个吧。Qwen3 8B 镜像已经上线算网云端部署本地调用就跟自己电脑上跑一样。首先打开官网https://sumw.com.cn/立即体验。输入手机号接收验证码登录。进入算力市场选择GPU。下拉找到镜像社区镜像点击选择vllm-qwen3镜像选择版本确认租用。等待启动。点击jupyterlab登录。登录后界面是这样的。然后依次按照下列操作步骤完成即可体验Qwen 3。步骤 1激活开发环境首先进入预置的 Python 虚拟环境执行以下命令source /torch/venv3/pytorch_infer/bin/activate步骤 2启动 vLLM 推理服务端使用以下命令启动兼容 OpenAI 接口的服务可根据自身硬件情况调整参数命令如下python3 -m vllm.entrypoints.openai.api_server--model ./Qwen3-8B--served-model-name Qwen3-8B--device mlu--dtype float16--host 0.0.0.0--port 6006--api-key hahahaha--trust-remote-code--max-model-len 10000--block-size 10000--max-seq-len-to-capture 10000--gpu-memory-utilization 0.95--disable-log-requests关键参数说明--port 6006服务监听端口可自行修改需保证后续调用时端口一致--api-key接口访问的鉴权密钥可自行修改--gpu-memory-utilization 0.95MLU 显存占用率上限设置为 95%可根据硬件情况调整步骤 3设置远程访问 (SSH 隧道)由于模型运行在远程服务器需要在本地电脑通过 SSH 隧道将服务器的 6006 端口映射到本地才能实现本地访问。带跳板机的指令格式ssh -L 6006:127.0.0.1:6006 -o ProxyCommandssh -p [跳板机端口] [跳板机用户][跳板机 IP] -W % h:% p [目标机器用户][目标机器 IP]使用示例需根据自身服务器信息修改对应参数ssh -L 6006:127.0.0.1:6006 -o ProxyCommandssh -p 2202 admin222.92.222.140 -W % h:% p root10.244.3.203执行指令后按提示依次输入跳板机和目标机器的密码连接成功后即可通过本地的 127.0.0.1:6006 地址访问远程模型服务。步骤 4本地 Python 调用示例使用 OpenAI 官方 SDK 进行调用完整代码如下from openai import OpenAI初始化客户端端口、api_key 需与服务启动命令中的配置完全一致client OpenAI(base_urlhttp://127.0.0.1:6006/v1,api_keyhahahaha)创建对话请求model 名称需与服务启动命令中的 --served-model-name 完全一致completion client.chat.completions.create (modelQwen3-8B,messages[{role: user, content: 你好}])输出模型回复内容print(completion.choices[0].message.content)三、重要注意事项端口一致性启动命令使用的端口必须与 Python 代码中 base_url 的端口完全一致示例中为 6006若修改端口需同步更新模型名称一致性Python 代码中的 model 参数必须与启动命令中的 --served-model-name 参数值完全一致显存溢出处理若服务启动失败可尝试调小 --max-model-len 参数值或降低 --gpu-memory-utilization 的数值访问报错说明若访问http://127.0.0.1:6006/v1出现 “URL 拼写可能存在错误请检查” 的报错通常是因为远程推理服务未成功启动、SSH 隧道未正常连接或本地与服务端的端口配置不一致导致需逐一排查上述配置项快来试试吧。‍

10个虚拟显示器：零成本破解Windows多屏工作难题

10个虚拟显示器：零成本破解Windows多屏工作难题【免费下载链接】virtual-display-rs A Windows virtual display driver to add multiple virtual monitors to your PC! For Win10. Works with VR, obs, streaming software, etc 项目地址: https://gitcode.com/…...

2026/4/14 11:12:31 阅读更多 →

Fast-GitHub：一键解决国内访问GitHub慢的浏览器插件

Fast-GitHub：一键解决国内访问GitHub慢的浏览器插件【免费下载链接】Fast-GitHub 国内Github下载很慢，用上了这个插件后，下载速度嗖嗖嗖的~！ 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 你是否经常遇到在国…...

2026/4/14 11:11:58 阅读更多 →

如何掌控你的中兴光猫配置？这个开源工具让你真正拥有网络自主权

如何掌控你的中兴光猫配置？这个开源工具让你真正拥有网络自主权【免费下载链接】ZET-Optical-Network-Terminal-Decoder 项目地址: https://gitcode.com/gh_mirrors/ze/ZET-Optical-Network-Terminal-Decoder 你是否曾经对家里的光猫感到束手无策&#xff…...

2026/4/14 11:08:56 阅读更多 →

HagiCode Desktop 混合分发架构解析：如何用 PP 加速大文件下载籽

一、Actor 模型：不是并发技巧，而是领域单元 Actor 模型的本质是： Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是： 如何在不共享状…...

2026/4/13 18:18:19 阅读更多 →

从数据采集到回放验证：ADTF 适配 ROS 的 ADAS 测试实践饺

一、简化查询 1. 先看一下查询的例子 /// /// 账户获取服务 /// /// /// public class AccountGetService(AccountTable table, IShadowBuilder builder) {private readonly SqlSource _source new(builder.DataSource);private readonly IParamQuery _accountQuery build…...

2026/4/13 18:18:21 阅读更多 →