Deepseek v3: GPT-4를 저렴한 비용으로 능가하는 6070억 매개변수의 오픈소스 LLM?
2025-01-02
Deepseek은 주력 모델인 v3를 공개했습니다. 이 모델은 6,070억 개의 매개변수를 가진 전문가 혼합 모델이며, 370억 개의 매개변수가 활성화되어 있습니다. 벤치마크 테스트 결과, OpenAI의 GPT-4o 및 Claude 3.5 Sonnet과 비슷하거나, 경우에 따라 더 나은 성능을 보였으며, Llama 3.1 403b, Qwen, Mistral을 능가하는 최고의 오픈소스 모델로 자리매김했습니다. 놀랍게도 Deepseek v3는 약 600만 달러의 저렴한 비용으로 이러한 성능을 달성했습니다. 이는 MoE 아키텍처, FP8 혼합 정밀도 훈련, 맞춤형 HAI-LLM 프레임워크와 같은 획기적인 엔지니어링 기술 덕분입니다. 추론 및 수학 능력은 GPT-4 및 Claude 3.5 Sonnet을 능가하지만, 작문 및 코딩 능력은 약간 떨어집니다. 비용 대비 성능이 매우 뛰어나 클라이언트 중심의 AI 애플리케이션을 구축하는 개발자에게 매력적인 선택지가 될 것입니다.
더 보기