Продукты

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Решения

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Экосистема

РАЗРАБОТЧИКИ

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Сообщество

Сообщество Хаб

События

Программа послов (Скоро)

Блог

Ресурсы

РЕСУРСЫ

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Блог

Select Language

Начать

Продукты

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Решения

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Экосистема

РАЗРАБОТЧИКИ

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Сообщество

Сообщество Хаб

События

Программа послов (Скоро)

Блог

Ресурсы

РЕСУРСЫ

AI рынок

Маркетплейс данных

Агент Сахара (Скоро)

Сценарии использования

Личный

Бизнес

Блог

Select Language

Начать

DeepSeek: Как 10,000 графических процессоров и квантовый трейдер стали основой революции ИИ

26 янв. 2025 г.

Давайте поговорим о DeepSeek — открытой модели ИИ, которая тихо изменяет ландшафт генеративного ИИ. Если вы следили за разговорами в социальных сетях, вы, вероятно, видели, как его имя появляется все чаще и чаще. Но какова история этого проекта? Как он превратился из увлечения квантового трейдера в одну из самых обсуждаемых моделей в сфере ИИ?

Давайте углубимся.

Происхождение DeepSeek: одержимость квантового трейдера

DeepSeek был основан в 2023 году Лян Вэньфэном, выпускником Университета Чжэцзян (маленький факт: он учился в том же университете, что и наш CEO и сооснователь Шон @xiangrenNLP, прежде чем Шон продолжил свое путешествие в Стэнфорт и USC!). Фон Ляна в квантовой торговле в High-Flyer дал ему уникальную точку зрения на потенциал ИИ. Задолго до бума генеративного ИИ он накапливал более 10,000 графических процессоров NVIDIA A100 — да, вы правильно прочитали. К 2021 году он уже построил вычислительную инфраструктуру, которая бы заставила завидовать большинство лабораторий ИИ!

Его миссия? Прокладывать путь к AGI (Исскуственному Общему Интеллекту) через алгоритмические инновации, а не грубую силу вычислений. Эта ориентация на эффективность стала необходимостью из-за ограничений на экспорт чипов в США, но она также выделила DeepSeek с самого начала.

Эволюция модели DeepSeek: от V1 до R1

Путешествие DeepSeek началось с DeepSeek-V1/V2, который представил новые архитектуры, такие как Мульти-головное латентное внимание (MLA) и DeepSeekMoE. Эти инновации снизили затраты на вычисления, улучшив эффективность вывода, положив начало тому, что должно было последовать.
Затем в декабре 2024 года появился DeepSeek-V3 — модель MoE с 671B параметрами (с 37B активными параметрами на токен), обученная на 14.8 триллионах токенов. V3 достигла производительности на уровне GPT-4 с 1/11 активированных параметров Llama 3.1-405B, с общими затратами на обучение в размере 5.6 миллионов долларов. Ключевые инновации, такие как MoE с балансировкой нагрузки без вспомогательной потери, мульти-токенная предсказательная модель (MTP), а также FP8 смешанная точность в обучении, сделали ее выдающейся.
Но настоящим прорывом стала DeepSeek-R1 в январе 2025 года. Эта модель-специалист по рассуждениям с 671B параметрами преуспевает в математике, коде и логических задачах, используя обучение с подкреплением (RL) с минимальным количеством размеченных данных. Она выпущена с открытым исходным кодом под лицензией MIT и превзошла модели OpenAI по таким показателям, как AIME 2024 (79.8% против 79.2%).

Команда DeepSeek: молодые, смелые и находчивые

Основная команда DeepSeek — это мощная сила молодого таланта, только что выпущенного из лучших университетов Китая. Культура? Подумайте о ранних днях OpenAI: плоская иерархия, свобода ресурсов (любой может запросить кластеры GPU) и акцент на исследовании, движимом любопытством. Неудивительно, что им удалось так быстро и эффективно итерировать.

Их влияние на сегодняшний экосистему ИИ

DeepSeek доказал, что высокая производительность не требует exorbitant вычислений. Затраты на обучение V3 составляют около 5.6 миллионов долларов, что является лишь крошечной частью ~$100M GPT−4o, а открытый релиз R1 демократизировал доступ к современному ИИ. Это создало значительное давление на соперников с закрытым исходным кодом, сделав DeepSeek лидером в движении открытого ИИ.

Результаты говорят сами за себя: DeepSeek-R1 занимает 4-е место в Chatbot Arena (по состоянию на январь 2025 года), единственная модель с открытым исходным кодом в топ-10 (кроме DeepSeek-V3)!

Углубитесь в DeepSeek

Для технически одаренных вот несколько ресурсов для изучения:

Технический отчет DeepSeek-V3: arxiv.org/abs/2412.19437v1
Репозиторий GitHub & статья DeepSeek-R1: github.com/deepseek-ai/DeepSeek-R1
Философия основателя (интервью на LessWrong): lesswrong.com/posts/kANyEjDDFWkhSKbcK

DeepSeek и Sahara AI

Мы осознали потенциал DeepSeek в начале 2024 года и сделали его основной частью нашей работы. В этом квартале R1 станет одной из флагманских моделей в нашем запуске AI Studio, наряду с другими ведущими моделями.

Мы не можем дождаться, чтобы показать вам все, что мы строим. Присоединяйтесь к нашей программе раннего доступа для разработчиков здесь, чтобы быть одним из первых, кто опробует нашу предстоящую платформу для разработки ИИ: https://hi.saharalabs.ai/dev-early-access

Что нового в Sahara AI

УЗНАЙТЕ БОЛЬШЕ

12 мар. 2026 г.

Sorin Beta Update: New Features

11 мар. 2026 г.

Meta Acquired the AI Agent Social Network That Went Viral for Fake Posts. Why That Makes Sense...

10 мар. 2026 г.

China is Rushing to Adopt OpenClaw Agents. Here’s Why.

4 мар. 2026 г.

Building for the Agentic Era: Sahara AI’s Vision for 2026

УЗНАЙТЕ БОЛЬШЕ