DeepSeek: Как 10,000 графических процессоров и квантовый трейдер стали основой революции ИИ
26 янв. 2025 г.
Давайте поговорим о DeepSeek — открытой модели ИИ, которая тихо изменяет ландшафт генеративного ИИ. Если вы следили за разговорами в социальных сетях, вы, вероятно, видели, как его имя появляется все чаще и чаще. Но какова история этого проекта? Как он превратился из увлечения квантового трейдера в одну из самых обсуждаемых моделей в сфере ИИ?
Давайте углубимся.
Происхождение DeepSeek: одержимость квантового трейдера
DeepSeek был основан в 2023 году Лян Вэньфэном, выпускником Университета Чжэцзян (маленький факт: он учился в том же университете, что и наш CEO и сооснователь Шон @xiangrenNLP, прежде чем Шон продолжил свое путешествие в Стэнфорт и USC!). Фон Ляна в квантовой торговле в High-Flyer дал ему уникальную точку зрения на потенциал ИИ. Задолго до бума генеративного ИИ он накапливал более 10,000 графических процессоров NVIDIA A100 — да, вы правильно прочитали. К 2021 году он уже построил вычислительную инфраструктуру, которая бы заставила завидовать большинство лабораторий ИИ!
Его миссия? Прокладывать путь к AGI (Исскуственному Общему Интеллекту) через алгоритмические инновации, а не грубую силу вычислений. Эта ориентация на эффективность стала необходимостью из-за ограничений на экспорт чипов в США, но она также выделила DeepSeek с самого начала.
Эволюция модели DeepSeek: от V1 до R1
Путешествие DeepSeek началось с DeepSeek-V1/V2, который представил новые архитектуры, такие как Мульти-головное латентное внимание (MLA) и DeepSeekMoE. Эти инновации снизили затраты на вычисления, улучшив эффективность вывода, положив начало тому, что должно было последовать.
Затем в декабре 2024 года появился DeepSeek-V3 — модель MoE с 671B параметрами (с 37B активными параметрами на токен), обученная на 14.8 триллионах токенов. V3 достигла производительности на уровне GPT-4 с 1/11 активированных параметров Llama 3.1-405B, с общими затратами на обучение в размере 5.6 миллионов долларов. Ключевые инновации, такие как MoE с балансировкой нагрузки без вспомогательной потери, мульти-токенная предсказательная модель (MTP), а также FP8 смешанная точность в обучении, сделали ее выдающейся.
Но настоящим прорывом стала DeepSeek-R1 в январе 2025 года. Эта модель-специалист по рассуждениям с 671B параметрами преуспевает в математике, коде и логических задачах, используя обучение с подкреплением (RL) с минимальным количеством размеченных данных. Она выпущена с открытым исходным кодом под лицензией MIT и превзошла модели OpenAI по таким показателям, как AIME 2024 (79.8% против 79.2%).
Команда DeepSeek: молодые, смелые и находчивые
Основная команда DeepSeek — это мощная сила молодого таланта, только что выпущенного из лучших университетов Китая. Культура? Подумайте о ранних днях OpenAI: плоская иерархия, свобода ресурсов (любой может запросить кластеры GPU) и акцент на исследовании, движимом любопытством. Неудивительно, что им удалось так быстро и эффективно итерировать.
Их влияние на сегодняшний экосистему ИИ
DeepSeek доказал, что высокая производительность не требует exorbitant вычислений. Затраты на обучение V3 составляют около 5.6 миллионов долларов, что является лишь крошечной частью ~$100M GPT−4o, а открытый релиз R1 демократизировал доступ к современному ИИ. Это создало значительное давление на соперников с закрытым исходным кодом, сделав DeepSeek лидером в движении открытого ИИ.
Результаты говорят сами за себя: DeepSeek-R1 занимает 4-е место в Chatbot Arena (по состоянию на январь 2025 года), единственная модель с открытым исходным кодом в топ-10 (кроме DeepSeek-V3)!
Углубитесь в DeepSeek
Для технически одаренных вот несколько ресурсов для изучения:
Технический отчет DeepSeek-V3: arxiv.org/abs/2412.19437v1
Репозиторий GitHub & статья DeepSeek-R1: github.com/deepseek-ai/DeepSeek-R1
Философия основателя (интервью на LessWrong): lesswrong.com/posts/kANyEjDDFWkhSKbcK
DeepSeek и Sahara AI
Мы осознали потенциал DeepSeek в начале 2024 года и сделали его основной частью нашей работы. В этом квартале R1 станет одной из флагманских моделей в нашем запуске AI Studio, наряду с другими ведущими моделями.
Мы не можем дождаться, чтобы показать вам все, что мы строим. Присоединяйтесь к нашей программе раннего доступа для разработчиков здесь, чтобы быть одним из первых, кто опробует нашу предстоящую платформу для разработки ИИ: https://hi.saharalabs.ai/dev-early-access