DeepSeek V3: Rendimiento de vanguardia con recursos limitados
El nuevo modelo V3 de DeepSeek, entrenado con solo 2048 GPUs H800 —una fracción de los recursos utilizados por gigantes como OpenAI— iguala o supera a GPT-4 y Claude en varios puntos de referencia. Su costo de entrenamiento de 5,5 millones de dólares es mucho menor que los 40 millones de dólares estimados para GPT-4. Este éxito, impulsado en parte por los controles de exportación de EE. UU. que limitan el acceso a GPU de alta gama, destaca el potencial de la innovación arquitectónica y la optimización de algoritmos sobre la potencia de cálculo pura. Es un argumento convincente de que las restricciones de recursos pueden, paradójicamente, impulsar avances innovadores en el desarrollo de IA.
Leer más