딥시크: 10,000개의 GPU와 퀀트 트레이더가 어떻게 AI 혁명을 촉발했는가

DeepSeek에 대해 이야기해 보겠습니다— 조용히 생성적 AI의 지형을 재편하고 있는 오픈 소스 AI 모델입니다. 소셜 미디어의 대화를 따라왔다면, 아마 이 모델의 이름이 점점 더 자주 등장하는 것을 보았을 것입니다. 하지만 그 배경 이야기는 무엇일까요? 이것이 양적 거래자의 열정 프로젝트에서 AI 분야에서 가장 많이 이야기되는 모델 중 하나로 발전한 과정은 무엇인가요?
함께 살펴보겠습니다.
DeepSeek의 기원: 양적 거래자의 집착
DeepSeek는 2023년 리앙 원펑(주: 그는 우리 CEO이자 공동 창립자인 션 @xiangrenNLP와 같은 절강대학교 출신입니다. 션은 스탠포드와 USC로 진학하기 전에 이 대학을 다녔습니다!)에 의해 설립되었습니다. High-Flyer에서의 그의 양적 거래 경력은 AI의 잠재력에 대한 독특한 관점을 제공했습니다. 생성적 AI 붐 이전에 그는 10,000개 이상의 NVIDIA A100 GPU를 비축하고 있었습니다— 맞습니다, 당신은 올바르게 읽었습니다. 2021년에는 대부분의 AI 연구소가 부러워할 만한 컴퓨팅 인프라를 이미 구축했습니다!
그의 임무는? 알고리즘 혁신을 통해 AGI(인공지능 일반 지능)를 개척하는 것입니다. 이 효율성에 대한 집착은 미국의 반도체 수출 제한으로 인해 필수적이 되었지만, 또한 첫날부터 DeepSeek를 차별화했습니다.
DeepSeek 모델 진화: V1에서 R1까지
DeepSeek의 여정은 새로운 구조를 도입한 DeepSeek-V1/V2로 시작되었습니다. 멀티 헤드 잠재 주의(Multi-head Latent Attention, MLA)와 DeepSeekMoE와 같은 혁신은 계산 비용을 줄이는 동시에 추론 효율성을 개선하여 다가올 것에 대한 기틀을 마련했습니다.
그리고 2024년 12월에 DeepSeek-V3가 등장했습니다. 671B 매개변수 MoE 모델(토큰 당 37B 활성 매개변수)로 14.8조 개의 토큰으로 학습되었습니다. V3는 Llama 3.1-405B의 활성 매개변수의 1/11에서 GPT-4 수준의 성능을 달성했으며, 총 훈련 비용은 560만 달러였습니다. 보조 손실이 없는 로드 밸런싱 MoE, 다중 토큰 예측(MTP) 및 FP8 혼합 정밀도 훈련 프레임워크와 같은 주요 혁신으로 두드러졌습니다.
하지만 실제 게임 체인저는 2025년 1월의 DeepSeek-R1이었습니다. 이 671B 매개변수 추론 전문가는 최소한의 레이블이 있는 데이터를 사용하여 수학, 코드 및 논리 작업에서 뛰어납니다. MIT 라이센스 하에 오픈 소스화되었으며, AIME 2024(79.8% 대 79.2%)와 같은 벤치마크에서 OpenAI 모델보다 높은 성능을 발휘했습니다.
DeepSeek 팀: 젊고 대담하며 자원ful이라고
DeepSeek의 핵심 팀은 중국 최고의 대학을 졸업한 젊은 인재들로 구성되어 있습니다. 문화는? 초기 OpenAI의 며칠을 생각해 보십시오: 수평적인 계층, 자원 자유(누구나 GPU 클러스터를 요청할 수 있음), 그리고 호기심에 기반한 연구에 대한 초점. 그들이 이렇게 빠르고 효과적으로 반복할 수 있었던 것은 놀라운 일이 아닙니다.
오늘날 AI 생태계에 대한 그들의 영향
DeepSeek는 높은 성능이 과도한 계산을 요구하지 않는다는 것을 입증했습니다. V3의
약 560만 달러의 훈련 비용은 GPT−4o의 약 1억 달러의 일부에 불과하며, R1의 오픈 소스 출시는 최첨단 AI에 대한 접근성을 민주화했습니다. 이는 클로즈드 소스 경쟁 업체에 상당한 압박을 가하여 DeepSeek를 오픈 소스 AI 운동의 선두주자로 만들었습니다.
결과는 스스로 말해줍니다: DeepSeek-R1은 2025년 1월 현재 Chatbot Arena에서 4위에 랭크되어 있으며, 상위 10위 안에 들은 유일한 오픈 소스 모델입니다(DeepSeek-V3 제외)!
DeepSeek에 대해 더 깊이 알아보기
기술에 관심이 있는 분들은 탐색할 수 있는 몇 가지 리소스가 있습니다:
DeepSeek-V3 기술 보고서: arxiv.org/abs/2412.19437v1
DeepSeek-R1 GitHub 저장소 및 논문: github.com/deepseek-ai/DeepSeek-R1
창립자의 철학(인터뷰를 통한 LessWrong): lesswrong.com/posts/kANyEjDDFWkhSKbcK
DeepSeek와 Sahara AI
우리는 2024년 초에 DeepSeek의 잠재력을 인식하고 이것을 우리의 작업의 핵심 요소로 삼았습니다. 이번 분기에는 R1이 우리의 AI 스튜디오 출시에서 주요 모델 중 하나가 될 것입니다, 다른 주요 모델과 함께요.
우리는 여러분에게 우리가 만든 모든 것을 보여드릴 수 있기를 기다릴 수 없습니다. 여기에서 우리의 예정된 AI 개발 플랫폼을 처음으로 사용해 볼 수 있는 개발자 조기 액세스 프로그램에 참여하세요: https://hi.saharalabs.ai/dev-early-access



