尊龙凯时·(中国)人生就是搏!

首页
新闻详情

OneThingAI算力云 x DeepSeek-R1:轻松实现私有化/本地部署

2025年02月08日

当前,随着大模型技术的快速发展,越来越多的企业和开发者希望将先进的AI模型如DeepSeek-R1部署到自己的算力环境中,以满足私有化部署和本地化部署的需求。作为AI技术探索的前沿平台,OneThingAI算力云支持通过Ollama和vLLM 等工具快速部署DeepSeek-R1模型的私有化与本地部署方案,全力护航AI应用开发。



一、 免费API接入


OneThingAI算力云为开发者提供了便捷的免费API接入方式。使用 Python 语言,借助 OpenAI 库即可轻松实现。只需简单几行代码:



二、通过Ollama 镜像部署DeepSeek-R1模型


Ollama 是一个开源的模型部署工具,支持在本地或云端快速部署大模型。OneThingAI算力云提供了预配置的 Ollama 镜像,用户可以通过简单的操作在 OneThingAI算力云上部署 DeepSeek-R1模型。


以Qwen 32B为例,步骤如下:


1.创建 Ollama 实例


在 OneThingAI算力云上创建一个1卡4090的 Ollama 实例。选择合适的显卡配置,确保显存能够满足模型的需求。例如,32B 的 DeepSeek-R1 模型需要至少 24GB 的显存。



2. 启动 Ollama 实例


实例创建完成后,进入WebShell,运行以下命令启动 Ollama 服务:



3. 部署 DeepSeek-R1 模型


通过 Ollama 提供的命令,部署 DeepSeek-R1 模型。例如,部署 32B 版本的 DeepSeek-R1 模型:



4. 对外提供服务


部署完成后,可以通过 TCP 转发对外提供服务。如果需要独立公网IP,可以联系OneThingAI算力云团队。



三、通过 vLLM 部署 DeepSeek-R1 模型


vLLM 是一个高性能的推理引擎,特别适合大模型的推理任务。OneThingAI算力云支持使用 vLLM 部署 DeepSeek-R1 模型,并提供预装的 DeepSeek-R1 蒸馏模型。



以下以Qwen 14B 为例,步骤如下:


1.创建 vLLM 实例


在 OneThingAI算力云 算力云上创建一个2卡的 vLLM 实例,确保显存能够满足模型的需求。例如,Qwen 14B 模型需要至少2卡 4090。



2. 启动 vLLM 服务


实例创建完成后,进入WebShell,运行以下命令启动 vLLM 服务:



运行以下命令:



结果如下,目前已经预装4款以Qwen为底模的 DeepSeek-R1 蒸馏模型



启动模型服务:



启动完成结果:



3. 配置公网服务

vLLM 提供的 API 兼容 OpenAI SDK,用户可以通过 HTTP 或 HTTPS 访问 API。HTTPS访问需可以在实例中安装 Nginx 并进行HTTPS相关配置,如有问题可联系OneThingAI算力云团队。



四、DeepSeek-R1 模型企业内部算力本地化部署

对于有私有化部署需求的企业,OneThingAI算力云 提供了本地化部署的方案。用户可以在公司内部的算力资源(如4090、H100等)上部署DeepSeek-R1模型。


部署步骤


1.准备 Linux 服务器


确保服务器上安装了 Docker 环境,并具备足够的 GPU 资源。


2. 拉取 Docker 镜像并启动容器



核心优势:


数据安全:私有化部署确保数据不会离开企业内部,满足数据安全和合规性要求。


高性能推理:利用本地 GPU 资源,实现低延迟、高性能的模型推理。


灵活定制:企业可以根据自身需求,定制模型的推理参数和部署环境。


接下来,OneThingAI算力云在接入DeepSeek-R1的基础上,还将持续推出SGLang等推理引擎的 Docker 镜像和更完善的私有化与本地化部署,享受高性能、低延迟的 AI 推理服务。如需更多支持,请联系OneThingAI算力云团队。


建议反馈

业务咨询