Deepseek v3: Un LLM de código abierto con 607B parámetros que supera a GPT-4 a una fracción del costo?
Deepseek presentó su modelo estrella, el v3, un modelo Mixture-of-Experts con 607 mil millones de parámetros y 37 mil millones de parámetros activos. Las pruebas muestran que es competitivo y, a veces, supera al GPT-4o de OpenAI y al Claude 3.5 Sonnet, convirtiéndose en el mejor modelo de código abierto actual, superando a Llama 3.1 403b, Qwen y Mistral. Sorprendentemente, Deepseek v3 logró este rendimiento por solo alrededor de 6 millones de dólares, utilizando ingeniería innovadora: arquitectura MoE, entrenamiento de precisión mixta FP8 y un framework HAI-LLM personalizado. Sobresale en razonamiento y matemáticas, incluso superando a GPT-4 y Claude 3.5 Sonnet, aunque es ligeramente inferior en escritura y codificación. Su excepcional relación precio-rendimiento lo convierte en una opción atractiva para los desarrolladores que crean aplicaciones de IA orientadas al cliente.