尊龙凯时·(中国)人生就是搏!

首页

新闻详情

OneThingAI算力云 x DeepSeek-R1：轻松实现私有化/本地部署

2025年02月08日

当前，随着大模型技术的快速发展，越来越多的企业和开发者希望将先进的AI模型如DeepSeek-R1部署到自己的算力环境中，以满足私有化部署和本地化部署的需求。作为AI技术探索的前沿平台，OneThingAI算力云支持通过Ollama和vLLM 等工具快速部署DeepSeek-R1模型的私有化与本地部署方案，全力护航AI应用开发。

一、免费API接入

OneThingAI算力云为开发者提供了便捷的免费API接入方式。使用 Python 语言，借助 OpenAI 库即可轻松实现。只需简单几行代码：

二、通过Ollama 镜像部署DeepSeek-R1模型

Ollama 是一个开源的模型部署工具，支持在本地或云端快速部署大模型。OneThingAI算力云提供了预配置的 Ollama 镜像，用户可以通过简单的操作在 OneThingAI算力云上部署 DeepSeek-R1模型。

以Qwen 32B为例，步骤如下：

1.创建 Ollama 实例

在 OneThingAI算力云上创建一个1卡4090的 Ollama 实例。选择合适的显卡配置，确保显存能够满足模型的需求。例如，32B 的 DeepSeek-R1 模型需要至少 24GB 的显存。

2. 启动 Ollama 实例

实例创建完成后，进入WebShell，运行以下命令启动 Ollama 服务：

3. 部署 DeepSeek-R1 模型

通过 Ollama 提供的命令，部署 DeepSeek-R1 模型。例如，部署 32B 版本的 DeepSeek-R1 模型：

4. 对外提供服务

部署完成后，可以通过 TCP 转发对外提供服务。如果需要独立公网IP，可以联系OneThingAI算力云团队。

三、通过 vLLM 部署 DeepSeek-R1 模型

vLLM 是一个高性能的推理引擎，特别适合大模型的推理任务。OneThingAI算力云支持使用 vLLM 部署 DeepSeek-R1 模型，并提供预装的 DeepSeek-R1 蒸馏模型。

以下以Qwen 14B 为例，步骤如下：

1.创建 vLLM 实例

在 OneThingAI算力云算力云上创建一个2卡的 vLLM 实例，确保显存能够满足模型的需求。例如，Qwen 14B 模型需要至少2卡 4090。

2. 启动 vLLM 服务

实例创建完成后，进入WebShell，运行以下命令启动 vLLM 服务：

运行以下命令：

结果如下，目前已经预装4款以Qwen为底模的 DeepSeek-R1 蒸馏模型

启动模型服务：

启动完成结果：

3. 配置公网服务

vLLM 提供的 API 兼容 OpenAI SDK，用户可以通过 HTTP 或 HTTPS 访问 API。HTTPS访问需可以在实例中安装 Nginx 并进行HTTPS相关配置，如有问题可联系OneThingAI算力云团队。

四、DeepSeek-R1 模型企业内部算力本地化部署

对于有私有化部署需求的企业，OneThingAI算力云提供了本地化部署的方案。用户可以在公司内部的算力资源（如4090、H100等）上部署DeepSeek-R1模型。

部署步骤

1.准备 Linux 服务器

确保服务器上安装了 Docker 环境，并具备足够的 GPU 资源。

2. 拉取 Docker 镜像并启动容器

核心优势：

数据安全：私有化部署确保数据不会离开企业内部，满足数据安全和合规性要求。

高性能推理：利用本地 GPU 资源，实现低延迟、高性能的模型推理。

灵活定制：企业可以根据自身需求，定制模型的推理参数和部署环境。

接下来，OneThingAI算力云在接入DeepSeek-R1的基础上，还将持续推出SGLang等推理引擎的 Docker 镜像和更完善的私有化与本地化部署，享受高性能、低延迟的 AI 推理服务。如需更多支持，请联系OneThingAI算力云团队。

如何利用OneThingAI+DeepSeek搭建本地知识库

尊龙凯时 - 人生就是搏!科技：AI重新定义音视频生产力“新范式”

业务咨询