数字化转型网(Professionalism Achieves Leadership 专业造就领导者)人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

一、DeepSeek 的 LLM 推理创新方法
DeepSeek 提出了一种创新的方法,通过强化学习 (RL) 改进大型语言模型 (LLMs) 的推理能力,相关内容在他们近期发表的 DeepSeek-R1 相关论文中进行了详细介绍 [论文地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf]。这项研究标志着我们在如何通过纯强化学习增强 LLMs 解决复杂问题的能力方面取得了重大进展,而无需过度依赖监督微调。
二、DeepSeek-R1 技术概述
模型架构:
DeepSeek-R1 不是一个单一模型,而是一个模型家族,包括:DeepSeek-R1-Zero 和 DeepSeek-R1。
让我解释一下 DeepSeek-R1 和 DeepSeek-R1-Zero 之间的主要区别:
DeepSeek-R1-Zero 代表了该团队使用纯强化学习的初始实验,没有使用任何监督微调。他们从基础模型 (base model) 开始,直接应用强化学习,让模型通过反复试验试错来发展推理能力。尽管这种方法取得了令人印象深刻的结果(在 AIME 2024 上达到 71% 的准确率),但仍存在一些显著的局限性,特别是在可读性和语言一致性方面。该模型拥有 6710 亿个参数,采用混合专家(MoE)架构,在该架构中每个标记 (token) 激活的参数相当于 370 亿个。该模型展示了涌现的推理行为,例如自我验证、反思和长思维链 (CoT)推理。
相比之下,DeepSeek-R1 采用了一种更为复杂的多阶段训练方法。它并非单纯依靠强化学习,而是先在一小部分精心挑选的示例数据(称为“冷启动数据”)上进行监督微调,之后再应用强化学习。这种方法克服了DeepSeek-R1-Zero 的局限性,同时还实现了更好的性能。该模型同样保持了 6710 亿的参数量,但实现了更好的响应可读性和连贯性。
三、训练过程比较
训练方法:
强化学习:与主要依赖监督学习的传统模型不同,DeepSeek-R1 广泛使用强化学习(RL)。其训练采用群体相对策略优化(group relative policy optimization – GRPO),专注于准确性和格式奖励,以增强推理能力,而无需大量标记数据。
蒸馏技术:为了实现高性能模型的普及,DeepSeek 还发布了 R1 的蒸馏版本,其参数量从 1.5B 到 70B 不等。这些模型基于 Qwen 和 Llama 等架构,这表明复杂的推理可以封装在更小、更高效的模型中。蒸馏过程涉及使用由完整版 DeepSeek-R1 生成的推理数据对这些较小的模型进行微调,从而在降低计算成本的同时保持高性能。
DeepSeek-R1-Zero 的训练过程很直接:
- 从基础模型开始
- 直接应用强化学习
- 使用基于准确和格式的简单奖励
DeepSeek – R1 的训练过程有四个不同的阶段:
- 使用数千个高质量示例进行初始监督微调
- 针对推理任务进行强化学习
- 通过拒绝采样收集新的训练数据
- 在所有类型的任务上进行最终强化学习
性能指标:
推理基准测试:DeepSeek-R1 在各种基准测试中都显示出令人印象深刻的结果:
- AIME 2024:通过率为79.8%,相比之下,OpenAI o1-1217 的通过率为79.2%
- MATH-500:得分高达 97.3%,略高于OpenAI o1-1217 的 96.4%
- SWE-bench Verified:在编程任务中表现出色,展示了其编码熟练程度
- 成本效益:DeepSeek-R1 的 API 缓存命中价格为每百万个输入 token定价约 0.14 美元,这使其比 OpenAI 的 o1 等同类模型便宜得多
四、局限性与未来工作
论文承认有几个需要改进的方面:
- 该模型有时难以完成需要特定输出格式的任务
- 软件工程任务的性能还需要更多提升
- 在多语言环境中,存在语言混合方面的挑战
- 小样本提示(Few-shot prompting)总是会降低性能
未来的工作将侧重于解决这些局限性,并在函数调用、多轮交互和复杂角色扮演场景等领域扩展模型的能力。
五、部署与访问
开源和许可:DeepSeek-R1 及其变体在 MIT 许可下发布,促进开源协作和商业用途,包括模型蒸馏。这一举措对促进创新和降低人工智能模型开发的准入门槛至关重要。
模型格式:这两种模型及其蒸馏版本均提供 GGML、GGUF、GPTQ 和 HF 等格式,因此可以灵活地在本地部署。
1. 通过 DeepSeek 聊天平台进行网页访问:
DeepSeek Chat 平台提供了一个用户友好的界面,无需任何设置即可与 DeepSeek-R1 进行交互。
访问步骤:
- 导航到 DeepSeek Chat 平台 → https://chat.deepseek.com/
- 注册一个帐户,如果您已经有一个帐户,请登录
- 登录后,选择 “深度思考”模式,体验 DeepSeek-R1 的分步推理能力
DeepSeek 聊天平台
2. 通过 DeepSeek API 访问:
对于编程和开发的需求,DeepSeek 提供了与 OpenAI 格式兼容的 API,允许集成到各种应用程序中。
使用 API 的步骤:
- 获取 API 密钥:访问 DeepSeek API 平台,创建一个账户并生成您的唯一 API 密钥。→ https://platform.deepseek.com/api_keys
- 配置您的环境:将 base_url 设置为 https://api.deepseek.com/v1
- 使用 API 密钥进行身份验证,通常通过 HTTP 标头中的 Bearer Token
- 进行 API 调用:利用 API 发送提示词并接收来自 DeepSeek-R1 的响应
详细的文档和示例可在 DeepSeek API Docs 中找到。→ https://api-docs.deepseek.com/
DeepSeek API 调用示例
3. 通过第三方平台 API 访问:
官方开放平台还处于无法充值状态。但是各主流云厂商和大模型供应商都陆续部署上线了各种规格的 DeepSeek 模型,并对外提供 API 服务。部分资源甚至免费中,可参见之前文章:无需充值!无需本地部署!DeepSeek官方API不可用之际发现隐藏在OpenRouter的最佳替代方案,亲测可白嫖!
4. 在本地运行 DeepSeek-R1:
R1 和 R1-Zero 两种模型:
硬件要求:由于模型参数量巨大的原因,完整模型部署需要大量的硬件。建议使用具有大量 VRAM 的 GPU(如 Nvidia RTX 3090 或更高版本)。要使用 CPU,至少需要 48 GB 的 RAM 和 250GB 的磁盘空间,但如果没有 GPU 加速,性能会很慢。
蒸馏模型:对于资源密集度较低的硬件的本地部署,DeepSeek 提供了蒸馏版本。这些参数范围从 1.5B 到 70B 不等,使其适用于硬件较适中的系统。例如,7B 模型可以在至少具有 6GB VRAM 的 GPU 上运行,也可以在具有约 4GB RAM 的 GGML/GGUF 格式的 CPU 上运行。
本地运行模型的软件工具:
Ollama
Ollama 是一种用于在计算机上本地运行开源 AI 模型的工具。在这里下载: https://ollama.com/download。可以使用 Ollama 在本地部署模型。
接下来,需要在本地 pull 并运行 DeepSeek R1 模型。
Ollama 提供不同大小的模型—基本上,更大的模型等于更智能的 AI,但需要更好的 GPU更多内存。
# 1.5B version (smallest):ollama run deepseek-r1:1.5b# 8B version:ollama run deepseek-r1:8b# 14B version:ollama run deepseek-r1:14b# 32B version:ollama run deepseek-r1:32b# 70B version (biggest/smartest):ollama run deepseek-r1:70b
要开始使用 DeepSeek-R1 进行试验,建议从较小的模型开始,以熟悉设置并确保与您的硬件兼容。可以通过打开终端并执行以下命令来启动此过程:
ollama run deepseek-r1:1.5b
通过 Ollama 向本地的 DeepSeek-R1 发送请求:
Ollama 提供了一个 API 端点,可以以编程方式与 DeepSeek-R1 交互。在发出 API 请求之前,请确保 Ollama 服务器在本地运行。可以通过运行以下命令来启动服务器:
ollama serve
服务器处于活动状态后,可以使用如下方式发送请求:
curl -X POST http://localhost:11434/api/generate -d "{\"model\": \"deepseek-r1:1.5b\",\"prompt\": \"1+1=\"}"
此命令向本地 Ollama 服务器发送 POST 请求,该服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。
在本地运行/访问模型的其他方法:
vLLM/SGLang:用于在本地提供模型。使用命令可运行蒸馏版本模型。
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — enforce-eager
llama.cpp: 还可以使用 llama.cpp 在本地运行模型。
其他:lmstudio、Jan 等很多很多都支持… …
官方甚至整理了一个列表,关于集成了 DeepSeek 的流行软件,地址:
->https://github.com/deepseek-ai/awesome-deepseek-integration
花钱买提示词就更冤啦!!
DeepSeek 官方文档有门类很齐全的提示词库,普通人的日常使用绰绰有余。
地址:-> https://api-docs.deepseek.com/zh-cn/prompt-library
六、总结:
对于 DeepSeek,普通人懂这些就够了,别再买网课花冤枉钱啦!
声明:本文来自新技术观察,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于新技术观察;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然。
