Apertus: Un Modelo de Lenguaje Grande Multilingüe Totalmente Abierto

2025-09-06
Apertus: Un Modelo de Lenguaje Grande Multilingüe Totalmente Abierto

Apertus es un modelo de lenguaje grande (LLM) multilingüe totalmente abierto con 70 mil millones y 8 mil millones de parámetros, que admite más de 1000 idiomas y contexto largo. Entrenado con 15 billones de tokens de datos abiertos y totalmente conformes, alcanza un rendimiento comparable a los modelos de código cerrado. Apertus utiliza una nueva función de activación xIELU y el optimizador AdEMAMix, pasando por un ajuste fino supervisado y alineación QRPO. Sus pesos, datos y detalles de entrenamiento están disponibles públicamente, respetando el consentimiento de exclusión de los propietarios de los datos y evitando la memorización de los datos de entrenamiento. Integrado en la biblioteca transformers, Apertus admite varios métodos de implementación. Si bien es potente, los usuarios deben ser conscientes de posibles imprecisiones y sesgos en su salida.

Leer más
IA

Qwen3-235B-A22B-Thinking-2507: Una mejora significativa para modelos de razonamiento de código abierto

2025-07-25
Qwen3-235B-A22B-Thinking-2507: Una mejora significativa para modelos de razonamiento de código abierto

Qwen3-235B-A22B-Thinking-2507 representa una mejora significativa en los modelos de lenguaje grandes de código abierto, con avances innovadores en capacidades de razonamiento. Alcanza resultados de vanguardia en razonamiento lógico, matemáticas, ciencia, codificación y benchmarks académicos, demostrando un rendimiento superior en diversas tareas complejas. El modelo también muestra capacidades generales mejoradas, como el seguimiento de instrucciones, el uso de herramientas, la generación de texto y la alineación con las preferencias humanas, además de una comprensión de contexto largo de 256K mejorada. Esencialmente, esta versión funciona en 'modo de pensamiento' de forma predeterminada y se recomienda encarecidamente para tareas de razonamiento complejas.

Leer más

SmolLM3: Un razonador pequeño, multilingüe y de contexto largo

2025-07-09
SmolLM3: Un razonador pequeño, multilingüe y de contexto largo

SmolLM3 es un modelo de lenguaje multilingüe de código abierto con 3 mil millones de parámetros que logra un equilibrio convincente entre eficiencia y rendimiento. Superando a Llama-3.2-3B y Qwen2.5-3B en varios puntos de referencia, incluso compite con modelos más grandes de 4 mil millones de parámetros. Con soporte para 6 idiomas y una longitud de contexto de hasta 128k tokens, SmolLM3 presenta una capacidad única de razonamiento de modo dual (think/no_think). Más allá del propio modelo, los investigadores están publicando el plan de ingeniería completo, incluyendo detalles de arquitectura, mezclas de datos y metodología de entrenamiento, un recurso valioso para cualquiera que construya o estudie modelos a esta escala.

Leer más

Nanonets-OCR-s: Más Allá de la OCR Tradicional con Procesamiento Inteligente de Documentos

2025-06-16
Nanonets-OCR-s: Más Allá de la OCR Tradicional con Procesamiento Inteligente de Documentos

Nanonets-OCR-s es un modelo OCR de vanguardia, de imagen a Markdown, que supera la extracción de texto tradicional. Transforma documentos en Markdown estructurado con reconocimiento inteligente de contenido y etiquetado semántico, ideal para el procesamiento posterior por Modelos de Lenguaje Grandes (LLMs). Las características clave incluyen el reconocimiento de ecuaciones LaTeX, la descripción inteligente de imágenes, la detección de firmas, la extracción de marcas de agua, el manejo inteligente de casillas de verificación y la extracción de tablas complejas. El modelo se puede usar a través de transformers, vLLM o docext.

Leer más
IA

Penny-1.7B: Modelo de lenguaje con estilo del periódico irlandés del siglo XIX

2025-06-02
Penny-1.7B: Modelo de lenguaje con estilo del periódico irlandés del siglo XIX

Penny-1.7B es un modelo de lenguaje causal de 1.700 millones de parámetros, ajustado con optimización de política relativa de grupo (GRPO) para imitar el estilo de prosa del siglo XIX del Irish Penny Journal de 1840. Un modelo de recompensa distingue el texto original del periódico de las traducciones modernas, maximizando la autenticidad. Ideal para escritura creativa, contenido educativo o pastiche estilístico en inglés irlandés de la época victoriana, pero no recomendado para la verificación de hechos contemporáneos.

Leer más
IA

Nuevo Modelo de IA DeepSeek-R1-0528 de 685B Parámetros en Hugging Face

2025-05-28
Nuevo Modelo de IA DeepSeek-R1-0528 de 685B Parámetros en Hugging Face

Un nuevo modelo de lenguaje grande, DeepSeek-R1-0528, con 685 mil millones de parámetros, ha sido lanzado en Hugging Face. El modelo está disponible en formato Safetensors y admite tipos de tensores que incluyen BF16, F8_E4M3 y F32. Actualmente, ningún proveedor de inferencia ha implementado el modelo, pero su página en Hugging Face proporciona detalles como la tarjeta del modelo, los archivos y las versiones.

Leer más
IA

Hugging Face lanza curso gratuito de MCP: Tu puerta de entrada al Protocolo de Contexto de Modelo

2025-05-21
Hugging Face lanza curso gratuito de MCP: Tu puerta de entrada al Protocolo de Contexto de Modelo

Hugging Face ha lanzado un curso gratuito de Protocolo de Contexto de Modelo (MCP) diseñado para llevar a los estudiantes de principiantes a expertos. El curso cubre la teoría, el diseño y la práctica del MCP, junto con la construcción de aplicaciones utilizando los SDK y marcos de MCP establecidos. Los participantes pueden obtener un certificado de finalización al completar las tareas y competir en desafíos. El plan de estudios también incluye unidades en colaboración con socios de Hugging Face, proporcionando acceso a las implementaciones y herramientas MCP más recientes. Los requisitos previos incluyen una comprensión básica de IA y LLMs, principios de desarrollo de software y API, y experiencia con al menos un lenguaje de programación (se proporcionan ejemplos de Python o TypeScript).

Leer más
IA

Análisis crítico: El caso contra los agentes de IA totalmente autónomos

2025-02-08
Análisis crítico: El caso contra los agentes de IA totalmente autónomos

Este artículo analiza críticamente el argumento en contra del desarrollo de agentes de IA totalmente autónomos. Si bien es estructurado, riguroso y destaca riesgos reales, como peligros para la seguridad y violaciones de la privacidad, adolece de una postura demasiado absoluta, una definición vaga de 'totalmente autónomo', un análisis de riesgo-beneficio desequilibrado y una exploración insuficiente de estrategias de mitigación. También muestra indicios de determinismo tecnológico. Las mejoras podrían incluir el suavizado del rechazo absoluto, la aclaración de la definición de autonomía, el equilibrio del análisis, el desarrollo de estrategias de mitigación y el fortalecimiento de la base empírica. En última instancia, es una contribución valiosa al debate continuo sobre la ética de la IA, pero no una conclusión definitiva.

Leer más

Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

2025-01-28
Open-R1: Reproducción de código abierto del modelo de razonamiento DeepSeek-R1

Las impresionantes capacidades de razonamiento del modelo DeepSeek-R1 han cautivado a la comunidad de IA, pero sus detalles de entrenamiento siguen sin revelarse. El proyecto Open-R1 tiene como objetivo reproducir completamente DeepSeek-R1 en código abierto, incluidos los conjuntos de datos y el pipeline de entrenamiento. Esto implicará la destilación de un conjunto de datos de razonamiento de alta calidad de DeepSeek-R1, la reproducción de su proceso de entrenamiento de aprendizaje por refuerzo puro y la exploración de métodos de entrenamiento en varias etapas. El objetivo final es crear un modelo de razonamiento transparente y reproducible, impulsando los avances en la comunidad de código abierto.

Leer más
IA

Janus-Pro-7B: Un Modelo Unificado de Comprensión y Generación Multimodal

2025-01-27
Janus-Pro-7B: Un Modelo Unificado de Comprensión y Generación Multimodal

DeepSeek presenta Janus-Pro-7B, un nuevo marco autorregresivo que unifica la comprensión y la generación multimodal. A diferencia de los enfoques anteriores, Janus-Pro desacopla inteligentemente la codificación visual, permitiendo un procesamiento eficiente dentro de una única arquitectura de transformador. Este desacoplamiento no solo resuelve el conflicto entre los roles del codificador visual en la comprensión y la generación, sino que también mejora la flexibilidad del marco. Janus-Pro supera a los modelos unificados anteriores e iguala o supera el rendimiento de los modelos específicos de la tarea. Su simplicidad, alta flexibilidad y eficacia lo convierten en un fuerte candidato para los modelos multimodales unificados de próxima generación.

Leer más
IA

DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo y sus versiones destiladas

2025-01-20
DeepSeek-R1: Modelo de razonamiento entrenado con aprendizaje por refuerzo y sus versiones destiladas

DeepSeek ha lanzado sus modelos de razonamiento de primera generación, DeepSeek-R1. Entrenado mediante aprendizaje por refuerzo a gran escala sin ajuste fino supervisado, DeepSeek-R1 soluciona problemas como la repetición infinita y la baja legibilidad presentes en su predecesor, DeepSeek-R1-Zero, incorporando datos de inicio en frío antes del RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1 en varios puntos de referencia. Además, DeepSeek ha hecho de código abierto DeepSeek-R1 y seis modelos destilados basados en Llama y Qwen. DeepSeek-R1-Distill-Qwen-32B supera a OpenAI-o1-mini en varios puntos de referencia, estableciendo nuevos resultados de vanguardia para modelos destilados. Estos modelos, junto con una API fácil de usar y una interfaz de chat, están disponibles en Hugging Face.

Leer más

Modelos de incrustación estática 400 veces más rápidos con Sentence Transformers

2025-01-15
Modelos de incrustación estática 400 veces más rápidos con Sentence Transformers

Esta publicación de blog presenta un método para entrenar modelos de incrustación estática que se ejecutan de 100 a 400 veces más rápido en CPU que los modelos de incrustación de última generación, mientras se mantiene la mayor parte de la calidad. Esto desbloquea muchos casos de uso interesantes, incluida la ejecución en dispositivos y en el navegador, la computación perimetral, las aplicaciones de baja potencia e integradas. Aplicamos esta receta para entrenar dos modelos de incrustación extremadamente eficientes: sentence-transformers/static-retrieval-mrl-en-v1 para recuperación en inglés y sentence-transformers/static-similarity-mrl-multilingual-v1 para tareas de similitud multilingüe.

Leer más

ModernBERT: Un reemplazo revolucionario para BERT

2024-12-19
ModernBERT: Un reemplazo revolucionario para BERT

Answer.AI y LightOn presentan ModernBERT, una familia de modelos de última generación solo de codificador que superan a BERT en velocidad y precisión. ModernBERT incorpora numerosos avances de la investigación reciente de LLM, con una longitud de contexto extendida (8192 tokens), procesamiento más rápido y un rendimiento superior en varios puntos de referencia. Sus capacidades de recuperación de código particularmente sólidas desbloquean nuevas aplicaciones como la búsqueda de código a gran escala y funciones de IDE mejoradas. ModernBERT es un reemplazo directo para los modelos BERT y está disponible en Hugging Face.

Leer más
IA

Hugging Face Spaces lanza ZeroGPU: Asignación dinámica de GPU para mayor eficiencia de modelos de IA

2024-12-15
Hugging Face Spaces lanza ZeroGPU: Asignación dinámica de GPU para mayor eficiencia de modelos de IA

Hugging Face Spaces ha lanzado ZeroGPU, una infraestructura compartida que asigna dinámicamente GPUs NVIDIA A100 para optimizar el uso de GPU para modelos y demostraciones de IA. ZeroGPU ofrece acceso gratuito a la GPU, soporte para múltiples GPUs y reduce las barreras para la implementación de modelos de IA. Los usuarios simplemente seleccionan el hardware ZeroGPU al crear un espacio Gradio y usan el decorador `@spaces.GPU` para funciones dependientes de la GPU. ZeroGPU es compatible con PyTorch y está optimizado para las bibliotecas transformers y diffusers de Hugging Face, pero actualmente solo funciona con el SDK Gradio. Las cuentas personales (usuarios PRO) pueden crear hasta 10 espacios ZeroGPU, mientras que las cuentas de organización (Hub empresarial) pueden crear hasta 50.

Leer más