DeepSeek V3: Desempenho de ponta com recursos limitados

2025-01-23
DeepSeek V3: Desempenho de ponta com recursos limitados

O novo modelo V3 da DeepSeek, treinado em apenas 2.048 GPUs H800 - uma fração dos recursos usados por gigantes como OpenAI - iguala ou supera o GPT-4 e o Claude em vários benchmarks. Seu custo de treinamento de US$ 5,5 milhões é muito menor do que os estimados US$ 40 milhões para o GPT-4. Esse sucesso, em parte impulsionado pelos controles de exportação dos EUA que limitam o acesso a GPUs de alta performance, destaca o potencial de inovação arquitetônica e otimização de algoritmos em relação à pura capacidade de computação. É um argumento convincente de que restrições de recursos podem, paradoxalmente, impulsionar avanços inovadores no desenvolvimento de IA.