DeepSeek:一万块GPU与一位量化交易员引发的人工智能革命

2025年1月26日

让我们来谈谈DeepSeek——这个开源AI模型,它正在悄然重塑生成AI的格局。如果你一直在关注社交媒体上的讨论,你可能已经看到它的名字越来越频繁地出现。但是,它背后的故事是什么?它是如何从量化交易者的热情项目发展成为AI领域最受关注的模型之一的?

让我们深入探讨一下。

DeepSeek的起源:量化交易者的痴迷

DeepSeek成立于2023年,由浙江大学校友梁文锋创办(有趣的是:他和我们的CEO及联合创始人Sean @xiangrenNLP曾就读于同一所大学,之后Sean继续前往斯坦福和南加州大学!)。梁在High-Flyer的量化交易背景使他对AI的潜力有了独特的视角。早在生成AI热潮之前,他就开始积累10,000多块NVIDIA A100 GPU—是的,你没看错。到2021年,他已经建立了一个让大多数AI实验室都嫉妒的计算基础设施!

他的使命?通过算法创新而非粗暴的计算,开创AGI(通用人工智能)。由于美国的芯片出口限制,这种对效率的关注成为了一种必要,但这也让DeepSeek从一开始就与众不同。

DeepSeek模型演变:从V1到R1

  1. DeepSeek的旅程始于DeepSeek-V1/V2,它引入了多头潜在注意机制(MLA)和DeepSeekMoE等新架构。这些创新在提高推理效率的同时降低了计算成本,为未来的发展奠定了基础。

  2. 然后在2024年12月推出了DeepSeek-V3——一个671B参数的MoE模型(每个标记有37B活跃参数),在14.8万亿个标记上进行训练。V3在激活参数为Llama 3.1-405B的1/11时达到了与GPT-4水平相当的性能,总训练成本为560万美元。诸如无辅助损失的负载平衡MoE、多标记预测(MTP)以及FP8混合精度训练框架等关键创新使其脱颖而出。

  3. 但是,真正的游戏改变者是DeepSeek-R1,它于2025年1月推出。这个671B参数的推理专家在数学、编码和逻辑任务中表现出色,利用最少的标记数据进行强化学习(RL)。它在MIT许可证下开源,在AIME 2024等基准测试中超越了OpenAI的模型(79.8%对79.2%)。

DeepSeek团队:年轻、勇敢且足智多谋

DeepSeek的核心团队是年轻人才的强大力量,他们刚刚从中国的顶尖大学毕业。文化呢?像是OpenAI早期的日子:扁平化的层级结构,资源自由(任何人都可以请求GPU集群),并且专注于好奇心驱动的研究。难怪他们能够如此快速而有效地迭代。

他们对今天AI生态系统的影响

DeepSeek证明,高性能并不需要昂贵的计算。V3的 

~560万美元的训练成本只是GPT−4o的~1亿美元的一小部分,而R1的开源发布使先进AI的使用变得民主化。这给闭源竞争对手带来了重大压力,使DeepSeek成为开源AI运动的领导者。

结果不言自明:DeepSeek-R1在2025年1月人机对话竞技场中排名第4,是前10名中唯一的开源模型(除了DeepSeek-V3)!

深入了解DeepSeek

对于技术爱好者,这里有一些资源供你探索:

DeepSeek与Sahara AI

我们在2024年初就认识到DeepSeek的潜力,并将其作为我们工作的核心部分。本季度,R1将成为我们AI工作室推出中的旗舰模型之一,和其他领先模型齐名。

我们迫不及待地想向你展示我们正在构建的一切。在此加入我们的开发者提前访问计划,成为首批尝试我们即将推出的AI开发平台的人之一:https://hi.saharalabs.ai/dev-early-access