FastVLM de Apple: Un Modelo de Lenguaje Visual Ultraveloz

2025-07-24
FastVLM de Apple: Un Modelo de Lenguaje Visual Ultraveloz

Los investigadores de Apple ML presentaron FastVLM, un nuevo Modelo de Lenguaje Visual (VLM), en CVPR 2025. Abordando la compensación entre precisión y eficiencia inherente a los VLM, FastVLM utiliza un codificador de visión de arquitectura híbrida, FastViTHD, diseñado para imágenes de alta resolución. Esto resulta en un VLM significativamente más rápido y preciso que los modelos comparables, permitiendo aplicaciones en tiempo real en dispositivos e IA que preserva la privacidad. FastViTHD genera tokens visuales de menor cantidad y mayor calidad, acelerando el prellenado del LLM. Una aplicación de demostración para iOS/macOS muestra las capacidades de FastVLM en dispositivos.

Leer más

Apple Presenta Nuevos Modelos de Lenguaje Base Multilingües y Multimodales

2025-07-18
Apple Presenta Nuevos Modelos de Lenguaje Base Multilingües y Multimodales

Apple presentó dos nuevos modelos de lenguaje base multilingües y multimodales que impulsan las funciones de inteligencia en sus dispositivos y servidores. Un modelo para dispositivos con aproximadamente 3 mil millones de parámetros, optimizado para silicio Apple, y un modelo de servidor escalable construido en un nuevo transformador Parallel-Track Mixture-of-Experts (PT-MoE). Ambos fueron entrenados en conjuntos de datos multilingües y multimodales masivos, refinados con ajuste fino supervisado y aprendizaje por refuerzo. Admiten más idiomas, comprensión de imágenes y llamadas a herramientas, igualando o superando modelos de código abierto comparables. Un nuevo framework centrado en Swift simplifica la integración para los desarrolladores.

Leer más
IA

TarFlow: Flujos Normalizadores basados en Transformer alcanzan el estado del arte en la estimación de verosimilitud de imágenes

2025-06-28
TarFlow: Flujos Normalizadores basados en Transformer alcanzan el estado del arte en la estimación de verosimilitud de imágenes

Los investigadores presentan TarFlow, un nuevo modelo de flujo normalizador que aprovecha los Transformers y los flujos autorregresivos enmascarados. TarFlow estima la densidad y genera imágenes de manera eficiente procesando parches de imágenes con bloques de Transformer autorregresivos, alternando la dirección de la autorregresión entre capas. Tres técnicas clave mejoran la calidad de las muestras: aumento de ruido gaussiano durante el entrenamiento, un procedimiento de eliminación de ruido posterior al entrenamiento y un método de guía eficaz tanto para configuraciones condicionales como incondicionales de clases. TarFlow alcanza resultados de vanguardia en la estimación de verosimilitud de imágenes, superando significativamente a los métodos anteriores y generando muestras con una calidad y diversidad comparables a los modelos de difusión, por primera vez con un modelo de flujo normalizador independiente.

Leer más
IA

Modelos de Razonamiento a Gran Escala: Colapso y Escalabilidad Contraria a la Intuición

2025-06-08
Modelos de Razonamiento a Gran Escala: Colapso y Escalabilidad Contraria a la Intuición

Los modelos de lenguaje de gran tamaño (LLM) recientes han generado modelos de razonamiento a gran escala (LRM), que generan rastros de razonamiento detallados antes de proporcionar respuestas. Si bien muestran mejoras en los puntos de referencia de razonamiento, sus capacidades fundamentales siguen siendo poco comprendidas. Este trabajo investiga LRM utilizando entornos de rompecabezas controlables, revelando un colapso completo de precisión más allá de un cierto umbral de complejidad. Sorprendentemente, el esfuerzo de razonamiento aumenta con la complejidad, luego disminuye a pesar de un presupuesto de tokens suficiente. En comparación con los LLM estándar, surgieron tres regímenes: (1) tareas de baja complejidad donde los LLM estándar superan a los LRM, (2) tareas de complejidad media donde los LRM muestran una ventaja, y (3) tareas de alta complejidad donde ambos fallan. Los LRM exhiben limitaciones en el cálculo exacto, no logran utilizar algoritmos explícitos y razonan de manera inconsistente. Este estudio destaca las fortalezas, limitaciones y preguntas cruciales en torno a las verdaderas capacidades de razonamiento de los LRM.

Leer más

El enfoque de Apple para la mejora de la IA con preservación de la privacidad

2025-04-14
El enfoque de Apple para la mejora de la IA con preservación de la privacidad

Apple está comprometida con la privacidad del usuario, incluso al mejorar sus funciones de IA como Genmoji, herramientas de generación de imágenes y herramientas de escritura. Emplean la privacidad diferencial, anonimizando los datos del usuario para recopilar solo información de tendencias agregadas, como indicaciones populares de Genmoji. Para las funciones de IA que manejan textos más largos, como correos electrónicos, Apple utiliza datos sintéticos. Esto genera datos sintéticos que imitan los patrones de datos de usuarios reales para el entrenamiento y la prueba de modelos sin acceder al contenido real del correo electrónico. Esto permite a Apple mejorar las experiencias del producto, garantizando que la privacidad del usuario siga siendo primordial.

Leer más

Nuevo avance de Apple en IA: Control preciso de modelos generativos con Transporte de Activación (AcT)

2025-04-10
Nuevo avance de Apple en IA: Control preciso de modelos generativos con Transporte de Activación (AcT)

Investigadores de aprendizaje automático de Apple han desarrollado el Transporte de Activación (AcT), una nueva técnica que ofrece control preciso sobre grandes modelos generativos, incluyendo LLMs y modelos de difusión de texto a imagen, sin el costoso entrenamiento de RLHF o ajuste fino. AcT dirige las activaciones del modelo usando la teoría de transporte óptimo, logrando un control agnóstico de modalidad con una sobrecarga computacional mínima. Los experimentos demuestran mejoras significativas en la mitigación de la toxicidad, la inducción de la veracidad en LLMs y el control del estilo en la generación de imágenes. AcT allana el camino para modelos generativos más seguros y fiables.

Leer más

SeedLM: Un Nuevo Método de Compresión de Pesos LLM usando Generadores de Números Pseudoaleatorios

2025-04-06
SeedLM: Un Nuevo Método de Compresión de Pesos LLM usando Generadores de Números Pseudoaleatorios

Los grandes modelos de lenguaje (LLM) se ven obstaculizados por altos costos de tiempo de ejecución, lo que limita su implementación generalizada. Investigadores de Meta presentan SeedLM, un nuevo método de compresión posterior al entrenamiento que utiliza semillas de un generador de números pseudoaleatorios para codificar y comprimir pesos de modelos. Durante la inferencia, SeedLM utiliza un registro de desplazamiento de retroalimentación lineal (LFSR) para generar eficientemente una matriz aleatoria, combinada linealmente con coeficientes comprimidos para reconstruir bloques de pesos. Esto reduce el acceso a la memoria y aprovecha los ciclos de cómputo inactivos, acelerando las tareas limitadas por memoria al intercambiar cómputo por menos accesos a la memoria. A diferencia de los métodos de vanguardia que requieren datos de calibración, SeedLM no necesita datos y se generaliza bien en diversas tareas. Los experimentos en el desafiante Llama 3 70B muestran una precisión de cero-shot en la compresión de 4 y 3 bits que iguala o supera a los métodos de vanguardia, manteniendo un rendimiento comparable a los benchmarks FP16. Las pruebas de FPGA demuestran que SeedLM de 4 bits se acerca a una aceleración de 4x con respecto a un benchmark FP16 Llama 2/3 a medida que aumenta el tamaño del modelo.

Leer más
IA