OpenAI lanza gpt-oss: LLMs de peso abierto potentes y ejecutables localmente

2025-08-10
OpenAI lanza gpt-oss: LLMs de peso abierto potentes y ejecutables localmente

OpenAI lanzó esta semana sus nuevos modelos de lenguaje grandes (LLMs) de peso abierto: gpt-oss-120b y gpt-oss-20b, sus primeros modelos de peso abierto desde GPT-2 en 2019. Sorprendentemente, gracias a optimizaciones inteligentes, pueden ejecutarse localmente. Este artículo profundiza en la arquitectura del modelo gpt-oss, comparándolo con modelos como GPT-2 y Qwen3. Destaca opciones arquitectónicas únicas, como Mixture-of-Experts (MoE), Grouped Query Attention (GQA) y atención con ventana deslizante. Si bien los puntos de referencia muestran que gpt-oss tiene un rendimiento comparable a los modelos de código cerrado en algunas áreas, su capacidad de ejecución local y su naturaleza de código abierto lo convierten en un activo valioso para la investigación y las aplicaciones.

Leer más

Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen

2025-07-20
Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen

Este artículo revisa los avances arquitectónicos en los modelos de lenguaje grandes (LLMs) durante 2025, centrándose en modelos de código abierto como DeepSeek, OLMo, Gemma, Mistral y Qwen. DeepSeek V3/R1 mejora la eficiencia computacional con Atención Latente Multi-Cabeza (MLA) y Mezcla de Expertos (MoE). OLMo 2 enfatiza la colocación de RMSNorm, empleando Post-Norm y QK-Norm. Gemma 3 utiliza atención de ventana deslizante para reducir los requisitos de memoria. Mistral Small 3.1 equilibra rendimiento y velocidad. Qwen 3 ofrece variantes densas y MoE para flexibilidad. SmolLM3 destaca por su tamaño de 3B parámetros y NoPE (Sin Embeddings Posicionales). Finalmente, Kimi 2 impresiona con su escala de billones de parámetros y el optimizador Muon. Estos modelos muestran innovaciones en mecanismos de atención, normalización, MoE y optimizadores, demostrando la diversidad y la evolución continua de las arquitecturas de LLM.

Leer más

Cuatro enfoques para construir modelos de razonamiento para LLM

2025-02-06
Cuatro enfoques para construir modelos de razonamiento para LLM

Este artículo explora cuatro enfoques principales para mejorar los modelos de lenguaje grandes (LLM) con capacidades de razonamiento: escalamiento en tiempo de inferencia, aprendizaje por refuerzo puro, ajuste fino supervisado más aprendizaje por refuerzo y destilación de modelos. El desarrollo de DeepSeek R1 se utiliza como un estudio de caso, mostrando cómo estos métodos pueden construir modelos de razonamiento potentes y cómo incluso los investigadores con presupuestos limitados pueden obtener resultados impresionantes mediante la destilación. El artículo también compara DeepSeek R1 con el o1 de OpenAI y analiza estrategias para construir modelos de razonamiento rentables.

Leer más