当前,随着大模型技术的快速发展,越来越多的企业和开发者希望将先进的AI模型如DeepSeek-R1部署到自己的算力环境中,以满足私有化部署和本地化部署的需求。作为AI技术探索的前沿平台,OneThingAI算力云支持通过Ollama和vLLM 等工具快速部署DeepSeek-R1模型的私有化与本地部署方案,全力护航AI应用开发。
一、 免费API接入
OneThingAI算力云为开发者提供了便捷的免费API接入方式。使用 Python 语言,借助 OpenAI 库即可轻松实现。只需简单几行代码:
二、通过Ollama 镜像部署DeepSeek-R1模型
Ollama 是一个开源的模型部署工具,支持在本地或云端快速部署大模型。OneThingAI算力云提供了预配置的 Ollama 镜像,用户可以通过简单的操作在 OneThingAI算力云上部署 DeepSeek-R1模型。
以Qwen 32B为例,步骤如下:
1.创建 Ollama 实例
在 OneThingAI算力云上创建一个1卡4090的 Ollama 实例。选择合适的显卡配置,确保显存能够满足模型的需求。例如,32B 的 DeepSeek-R1 模型需要至少 24GB 的显存。
2. 启动 Ollama 实例
实例创建完成后,进入WebShell,运行以下命令启动 Ollama 服务:
3. 部署 DeepSeek-R1 模型
通过 Ollama 提供的命令,部署 DeepSeek-R1 模型。例如,部署 32B 版本的 DeepSeek-R1 模型:
4. 对外提供服务
部署完成后,可以通过 TCP 转发对外提供服务。如果需要独立公网IP,可以联系OneThingAI算力云团队。
三、通过 vLLM 部署 DeepSeek-R1 模型
vLLM 是一个高性能的推理引擎,特别适合大模型的推理任务。OneThingAI算力云支持使用 vLLM 部署 DeepSeek-R1 模型,并提供预装的 DeepSeek-R1 蒸馏模型。
以下以Qwen 14B 为例,步骤如下:
1.创建 vLLM 实例
在 OneThingAI算力云 算力云上创建一个2卡的 vLLM 实例,确保显存能够满足模型的需求。例如,Qwen 14B 模型需要至少2卡 4090。
2. 启动 vLLM 服务
实例创建完成后,进入WebShell,运行以下命令启动 vLLM 服务:
运行以下命令:
结果如下,目前已经预装4款以Qwen为底模的 DeepSeek-R1 蒸馏模型
启动模型服务:
启动完成结果:
3. 配置公网服务
vLLM 提供的 API 兼容 OpenAI SDK,用户可以通过 HTTP 或 HTTPS 访问 API。HTTPS访问需可以在实例中安装 Nginx 并进行HTTPS相关配置,如有问题可联系OneThingAI算力云团队。
四、DeepSeek-R1 模型企业内部算力本地化部署
对于有私有化部署需求的企业,OneThingAI算力云 提供了本地化部署的方案。用户可以在公司内部的算力资源(如4090、H100等)上部署DeepSeek-R1模型。
部署步骤
1.准备 Linux 服务器
确保服务器上安装了 Docker 环境,并具备足够的 GPU 资源。
2. 拉取 Docker 镜像并启动容器
核心优势:
数据安全:私有化部署确保数据不会离开企业内部,满足数据安全和合规性要求。
高性能推理:利用本地 GPU 资源,实现低延迟、高性能的模型推理。
灵活定制:企业可以根据自身需求,定制模型的推理参数和部署环境。
接下来,OneThingAI算力云在接入DeepSeek-R1的基础上,还将持续推出SGLang等推理引擎的 Docker 镜像和更完善的私有化与本地化部署,享受高性能、低延迟的 AI 推理服务。如需更多支持,请联系OneThingAI算力云团队。