Deepseek v3: Un LLM de código abierto con 607B parámetros que supera a GPT-4 a una fracción del costo?

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Deepseek v3: Un LLM de código abierto con 607B parámetros que supera a GPT-4 a una fracción del costo?

2025-01-02

Deepseek presentó su modelo estrella, el v3, un modelo Mixture-of-Experts con 607 mil millones de parámetros y 37 mil millones de parámetros activos. Las pruebas muestran que es competitivo y, a veces, supera al GPT-4o de OpenAI y al Claude 3.5 Sonnet, convirtiéndose en el mejor modelo de código abierto actual, superando a Llama 3.1 403b, Qwen y Mistral. Sorprendentemente, Deepseek v3 logró este rendimiento por solo alrededor de 6 millones de dólares, utilizando ingeniería innovadora: arquitectura MoE, entrenamiento de precisión mixta FP8 y un framework HAI-LLM personalizado. Sobresale en razonamiento y matemáticas, incluso superando a GPT-4 y Claude 3.5 Sonnet, aunque es ligeramente inferior en escritura y codificación. Su excepcional relación precio-rendimiento lo convierte en una opción atractiva para los desarrolladores que crean aplicaciones de IA orientadas al cliente.

(composio.dev)

IA IA de Código Abierto

Connet: Un proxy inverso P2P con recorrido NAT

Distro (YC) Busca Representante de Desarrollo de Negocios