DeepSeek:一万块GPU与一位量化交易员引发的人工智能革命

让我们来谈谈 DeepSeek——这个开源 AI 模型,它悄然改变了生成式 AI 的格局。如果你一直关注社交媒体上的讨论,你可能会发现它的名字越来越频繁地出现。那么它背后的故事是什么呢?它是如何从一个量化交易员的热情项目发展成为 AI 领域最受关注的模型之一的?
让我们深入了解一下。
DeepSeek 的起源:一个量化交易员的执念
DeepSeek 于 2023 年由浙江大学校友梁文峰创立(有趣的事实:他和我们的 CEO 兼联合创始人 Sean @xiangrenNLP 在同一所大学上学,在 Sean 继续前往斯坦福和南加州大学之前!)。梁在高飞公司从事量化交易的背景使他对 AI 的潜力有了独特的见解。早在生成式 AI 繁荣之前,他就已经储备了 10,000 多块 NVIDIA A100 GPU——没错,你没有看错。到 2021 年,他已经建立了一个让大多数 AI 实验室都羡慕的计算基础设施!
他的使命?通过算法创新来开创 AGI(通用人工智能),而不是依赖强大的计算能力。由于美国的芯片出口限制,这种对效率的关注变得势在必行,但它也让 DeepSeek 从一开始就与众不同。
DeepSeek 模型的演化:从 V1 到 R1
DeepSeek 的旅程始于 DeepSeek-V1/V2,它介绍了新颖的架构,如多头潜在注意力 (MLA) 和 DeepSeekMoE。这些创新在降低计算成本的同时提高了推理效率,为后续的发展奠定了基础。
然后在 2024 年 12 月推出了 DeepSeek-V3——一个 671B 参数的 MoE 模型(每个令牌 37B 活跃参数),训练于 14.8 万亿个令牌。V3 在激活参数为 Llama 3.1-405B 的 1/11 的情况下实现了 GPT-4 级别的性能,总训练成本为 560 万美元。诸如无辅助损失的负载平衡 MoE、多令牌预测 (MTP) 以及 FP8 混合精度训练框架等关键创新,使其脱颖而出。
但真正的游戏规则改变者是 DeepSeek-R1,它在 2025 年 1 月问世。这个 671B 参数的推理专家在数学、代码和逻辑任务方面表现出色,使用最小的标记数据进行强化学习 (RL)。它根据 MIT 许可开源,在 AIME 2024 等基准测试中超越了 OpenAI 的模型(79.8% 对 79.2%)。
DeepSeek 团队:年轻、大胆且足智多谋
DeepSeek 的核心团队是一支由年轻人才组成的强大团队,他们刚从中国顶尖大学毕业。文化?想想 OpenAI 的早期日子:扁平的层级结构、资源自由(任何人都可以申请 GPU 集群)以及以好奇心驱动的研究。难怪他们能够如此快速而有效地迭代。
他们对当今 AI 生态系统的影响
DeepSeek 已证明高性能并不需要高额的计算成本。V3 的
约 560 万美元的训练成本是 GPT−4o 约 1 亿美元成本的一小部分,而 R1 的开源发布使得最先进 AI 的访问变得民主。这对闭源竞争对手造成了显著压力,使 DeepSeek 在开源 AI 运动中成为领导者。
结果不言而喻:DeepSeek-R1 在 Chatbot Arena 排名第 4(截至 2025 年 1 月),是前 10 名中唯一的开源模型(除了 DeepSeek-V3)!
深入了解 DeepSeek
对于技术人员,这里有一些资源可供探索:
DeepSeek-V3 技术报告: arxiv.org/abs/2412.19437v1
DeepSeek-R1 GitHub Repo & 论文: github.com/deepseek-ai/DeepSeek-R1
创始人的哲学(在 LessWrong 上的访谈): lesswrong.com/posts/kANyEjDDFWkhSKbcK
DeepSeek 和 Sahara AI
我们在 2024 年早期就认识到 DeepSeek 的潜力,并使其成为我们工作的核心部分。本季度,R1 将成为我们 AI Studio 发布的旗舰模型之一,和其他领先模型一起。
我们迫不及待想向您展示我们正在构建的一切。请在此加入我们的开发者早期访问计划,成为首批试用我们即将推出的 AI 开发平台的人之一: https://hi.saharalabs.ai/dev-early-access



