产品

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

解决方案

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

生态系统

开发者

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

社区

社区中心

活动

大使计划（敬请期待）

博客

资源

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

博客

Select Language

开始使用

产品

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

解决方案

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

生态系统

开发者

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

社区

社区中心

活动

大使计划（敬请期待）

博客

资源

AI 市场

数据市场

Sahara 智能体（敬请期待）

使用案例

个人

商业

博客

Select Language

开始使用

DeepSeek：一万块GPU与一位量化交易员引发的人工智能革命

2025年1月26日

让我们来谈谈DeepSeek——这个开源AI模型，它正在悄然重塑生成AI的格局。如果你一直在关注社交媒体上的讨论，你可能已经看到它的名字越来越频繁地出现。但是，它背后的故事是什么？它是如何从量化交易者的热情项目发展成为AI领域最受关注的模型之一的？

让我们深入探讨一下。

DeepSeek的起源：量化交易者的痴迷

DeepSeek成立于2023年，由浙江大学校友梁文锋创办（有趣的是：他和我们的CEO及联合创始人Sean @xiangrenNLP曾就读于同一所大学，之后Sean继续前往斯坦福和南加州大学！）。梁在High-Flyer的量化交易背景使他对AI的潜力有了独特的视角。早在生成AI热潮之前，他就开始积累10,000多块NVIDIA A100 GPU—是的，你没看错。到2021年，他已经建立了一个让大多数AI实验室都嫉妒的计算基础设施！

他的使命？通过算法创新而非粗暴的计算，开创AGI（通用人工智能）。由于美国的芯片出口限制，这种对效率的关注成为了一种必要，但这也让DeepSeek从一开始就与众不同。

DeepSeek模型演变：从V1到R1

DeepSeek的旅程始于DeepSeek-V1/V2，它引入了多头潜在注意机制（MLA）和DeepSeekMoE等新架构。这些创新在提高推理效率的同时降低了计算成本，为未来的发展奠定了基础。
然后在2024年12月推出了DeepSeek-V3——一个671B参数的MoE模型（每个标记有37B活跃参数），在14.8万亿个标记上进行训练。V3在激活参数为Llama 3.1-405B的1/11时达到了与GPT-4水平相当的性能，总训练成本为560万美元。诸如无辅助损失的负载平衡MoE、多标记预测（MTP）以及FP8混合精度训练框架等关键创新使其脱颖而出。
但是，真正的游戏改变者是DeepSeek-R1，它于2025年1月推出。这个671B参数的推理专家在数学、编码和逻辑任务中表现出色，利用最少的标记数据进行强化学习（RL）。它在MIT许可证下开源，在AIME 2024等基准测试中超越了OpenAI的模型（79.8%对79.2%）。

DeepSeek团队：年轻、勇敢且足智多谋

DeepSeek的核心团队是年轻人才的强大力量，他们刚刚从中国的顶尖大学毕业。文化呢？像是OpenAI早期的日子：扁平化的层级结构，资源自由（任何人都可以请求GPU集群），并且专注于好奇心驱动的研究。难怪他们能够如此快速而有效地迭代。

他们对今天AI生态系统的影响

DeepSeek证明，高性能并不需要昂贵的计算。V3的

~560万美元的训练成本只是GPT−4o的~1亿美元的一小部分，而R1的开源发布使先进AI的使用变得民主化。这给闭源竞争对手带来了重大压力，使DeepSeek成为开源AI运动的领导者。

结果不言自明：DeepSeek-R1在2025年1月人机对话竞技场中排名第4，是前10名中唯一的开源模型（除了DeepSeek-V3）！

深入了解DeepSeek

对于技术爱好者，这里有一些资源供你探索：

DeepSeek-V3技术报告：arxiv.org/abs/2412.19437v1
DeepSeek-R1 GitHub仓库及论文：github.com/deepseek-ai/DeepSeek-R1
创始人的哲学（在LessWrong上的访谈）：lesswrong.com/posts/kANyEjDDFWkhSKbcK

DeepSeek与Sahara AI

我们在2024年初就认识到DeepSeek的潜力，并将其作为我们工作的核心部分。本季度，R1将成为我们AI工作室推出中的旗舰模型之一，和其他领先模型齐名。

我们迫不及待地想向你展示我们正在构建的一切。在此加入我们的开发者提前访问计划，成为首批尝试我们即将推出的AI开发平台的人之一：https://hi.saharalabs.ai/dev-early-access

Sahara AI的最新动态

了解更多

2025年10月10日

理解撒哈拉人工智能与撒哈拉实验室

2025年10月10日

理解撒哈拉人工智能与撒哈拉实验室

2025年10月10日

理解撒哈拉人工智能与撒哈拉实验室

2025年10月10日

理解撒哈拉人工智能与撒哈拉实验室

2025年10月9日

Understanding AI Agents: What They Are and How They Work

2025年10月9日

Understanding AI Agents: What They Are and How They Work

2025年10月9日

Understanding AI Agents: What They Are and How They Work

2025年10月9日

Understanding AI Agents: What They Are and How They Work

2025年10月8日

Unlocking The Future: Why AI Agents Are Transforming Our World

2025年10月8日

Unlocking The Future: Why AI Agents Are Transforming Our World

2025年10月8日

Unlocking The Future: Why AI Agents Are Transforming Our World

2025年10月8日

Unlocking The Future: Why AI Agents Are Transforming Our World

2025年10月7日

人工智能数据服务的未来：您应该了解的趋势和预测

2025年10月7日

人工智能数据服务的未来：您应该了解的趋势和预测

2025年10月7日

人工智能数据服务的未来：您应该了解的趋势和预测

2025年10月7日

人工智能数据服务的未来：您应该了解的趋势和预测

了解更多