DeepSeek: Как 10,000 графических процессоров и квантовый трейдер стали основой революции ИИ

Давайте поговорим о DeepSeek — открытой модели ИИ с открытым исходным кодом, которая тихо меняет ландшафт генеративного ИИ. Если вы следили за обсуждениями в социальных сетях, вы, вероятно, видели его название, всплывающее всё чаще и чаще. Но какова история, стоящая за этим? Как он превратился из душевного проекта количественного трейдера в одну из самых обсуждаемых моделей в области ИИ?
Давайте разберёмся.
Происхождение DeepSeek: Обсессия количественного трейдера
DeepSeek был основан в 2023 году Лянем Вэньфэнем, выпускником Университета Чжэцзян (вот интересный факт: он учился в одном и том же университете, что и наш CEO и сооснователь Шон @xiangrenNLP, прежде чем Шон продолжил свой путь в Стэнфорде и USC!). Фон Ляня в количественной торговле в High-Flyer дал ему уникальную перспективу на потенциал ИИ. За долго до бум генеративного ИИ он запасся 10,000+ графическими процессорами NVIDIA A100 — да, вы не ослышались. К 2021 году он уже построил вычислительную инфраструктуру, которая вызовет зависть у большинства лабораторий ИИ!
Его миссия? Стать первопроходцем AGI (Искусственного Обобщенного Интеллекта) через алгоритмические инновации, а не чересчур мощные вычисления. Этот акцент на эффективности стал необходимостью из-за ограничений на экспорт чипов в США, но он также выделил DeepSeek с самого начала.
Эволюция модели DeepSeek: от V1 до R1
Путешествие DeepSeek началось с DeepSeek-V1/V2, которые представили новые архитектуры, такие как многоголовое латентное внимание (MLA) и DeepSeekMoE. Эти инновации снизили затраты на вычисления, улучшив эффективность вывода, подготовив почву для будущих достижений.
Затем в декабре 2024 года пришёл DeepSeek-V3 — модель MoE с 671 миллиарда параметров (с 37 миллиардами активных параметров на токен), обученная на 14.8 триллионах токенов. V3 достиг уровня производительности GPT-4 при 1/11 активированных параметров Llama 3.1-405B, с общей стоимостью обучения $5.6M. Ключевые инновации, такие как MoE без вспомогательной потерь, многотокенная предсказательная модель (MTP), а также FP8 смешанная точность в обучении, сделали её выдающейся.
Но настоящим изменителем игры стал DeepSeek-R1 в январе 2025 года. Эта специализированная модель с 671 миллиаром параметров превосходит в математических, кодовых и логических задачах, используя обучение с подкреплением (RL) с минимальным количеством размеченных данных. Она имеет открытую лицензию MIT, и превзошла модели OpenAI на таких тестах, как AIME 2024 (79.8% против 79.2%).
Команда DeepSeek: Молодая, смелая и находчивая
Основная команда DeepSeek — это мощный источник молодой талантливой силы, только что выпустившейся из ведущих университетов Китая. Культура? Думайте о ранних деньках OpenAI: плоская иерархия, свобода ресурсов (любой может запросить кластеры GPU) и акцент на исследования, движимые любопытством. Неудивительно, что им удалось так быстро и эффективно разрабатывать.
Их влияние на современную экосистему ИИ
DeepSeek доказал, что высокая производительность не требует колоссальных вычислительных мощностей. Стоимость обучения V3 составляет
~$5.6M, что является лишь малой долей от ~$100M, необходимых для GPT−4o, а открытый релиз R1 демократизировал доступ к современному ИИ. Это оказало значительное давление на закрытые конкурирующие модели, сделав DeepSeek лидером в движении открытого ИИ.
Результаты говорят сами за себя: DeepSeek-R1 занимает 4-е место на Chatbot Arena (с января 2025 года), это единственная модель с открытым исходным кодом в топ-10 (за исключением DeepSeek-V3)!
Погрузитесь глубже в DeepSeek
Для тех, кто настроен технически, вот несколько ресурсов для изучения:
Технический отчет DeepSeek-V3: arxiv.org/abs/2412.19437v1
Репозиторий и статья DeepSeek-R1 на GitHub: github.com/deepseek-ai/DeepSeek-R1
Философия основателя (интервью на LessWrong): lesswrong.com/posts/kANyEjDDFWkhSKbcK
DeepSeek и Sahara AI
Мы рано оценили потенциал DeepSeek в 2024 году и сделали его ключевой частью нашей работы. В этом квартале R1 станет одной из ведущих моделей в нашем запуске AI Studio, наряду с другими ведущими моделями.
Мы не можем дождаться, чтобы показать вам всё, что мы строим. Присоединяйтесь к нашей программе раннего доступа для разработчиков здесь, чтобы быть одним из первых, кто протестирует нашу предстоящую платформу для разработки ИИ: https://hi.saharalabs.ai/dev-early-access



