Category: IA

ViTs vs. CNNs: Benchmarks de Velocidad Desmienten los Mitos sobre la Resolución

2025-05-04

Este artículo cuestiona la creencia común de que los Transformadores de Visión (ViTs) son ineficientes para el procesamiento de imágenes de alta resolución. A través de benchmarks rigurosos en varias GPUs, el autor compara la velocidad de inferencia, FLOPs y el uso de memoria de ViTs y Redes Neuronales Convolucionales (CNNs). Los resultados muestran que los ViTs tienen un rendimiento excepcional hasta e incluyendo 1024x1024 píxeles, superando a menudo a las CNNs en hardware moderno en velocidad y eficiencia de memoria. El autor también argumenta contra un énfasis excesivo en la alta resolución, sugiriendo que las resoluciones más bajas son a menudo suficientes. Finalmente, el artículo presenta mecanismos de atención local, mejorando aún más la eficiencia del ViT en resoluciones más altas.

IA

Autómata Celular de Codd: Una Máquina de Auto-Replicación Simplificada

2025-05-04
Autómata Celular de Codd: Una Máquina de Auto-Replicación Simplificada

En 1968, el científico informático británico Edgar F. Codd diseñó un autómata celular (AC) con solo 8 estados, simplificando la máquina de auto-replicación de 29 estados de von Neumann. Codd demostró la posibilidad de una máquina de auto-replicación dentro de su AC, pero una implementación completa no se logró hasta 2009 por Tim Hutton. El trabajo de Codd impulsó investigaciones sobre la organización lógica necesaria para la auto-replicación en autómatas, inspirando refinamientos posteriores por investigadores como Devore y Langton, llevando a diseños de auto-replicación menos complejos.

IA

TScale: Entrenando LLMs en Hardware de Consumo

2025-05-04
TScale: Entrenando LLMs en Hardware de Consumo

TScale es un framework de entrenamiento e inferencia de modelos de transformadores escrito en C++ y CUDA, diseñado para ejecutarse en hardware de consumo. Logra reducciones significativas de costes y tiempo mediante una arquitectura optimizada, computación de baja precisión (fp8 e int8), descarga de la CPU y entrenamiento distribuido sincrónico y asincrónico. Incluso un modelo de 1T de parámetros se vuelve manejable con técnicas de indexación inteligentes, permitiendo el entrenamiento en ordenadores domésticos típicos. TScale demuestra un inmenso potencial en la reducción de la barrera de entrada para el entrenamiento de LLMs.

Gráfico de predicción de IA defectuoso se vuelve viral: una historia de advertencia

2025-05-04
Gráfico de predicción de IA defectuoso se vuelve viral: una historia de advertencia

METR, un laboratorio de investigación sin fines de lucro, publicó un informe que muestra el rápido progreso de los grandes modelos de lenguaje en tareas de software, generando debates virales. Sin embargo, la premisa del gráfico es defectuosa: utiliza el tiempo de solución humana para medir la dificultad del problema y el tiempo de tasa de éxito del 50% de la IA como una medida de capacidad. Esto ignora las complejidades diversas de los problemas, lo que lleva a resultados arbitrarios inadecuados para la predicción. Si bien el conjunto de datos de METR y las discusiones sobre las limitaciones actuales de la IA son valiosas, usar el gráfico para predicciones de capacidad futura de la IA es engañoso. Su propagación viral destaca una tendencia a creer lo que uno quiere creer en lugar de concentrarse en la validez.

Diez nuevas palabras para la era de la comunicación con IA

2025-05-03
Diez nuevas palabras para la era de la comunicación con IA

El auge de la IA ha alterado fundamentalmente la forma en que nos comunicamos. Este artículo presenta con humor diez nuevos términos para describir este cambio, como 'chatjacked' (IA secuestrando conversaciones), 'prasted' (pegar la salida de la IA sin editar), 'prompt ponged' (ida y vuelta impulsada por IA) y 'AI'm a Writer Now' (escritura impulsada por IA). Ilustra vívidamente el impacto de la IA en la comunicación, llevando a la reflexión sobre la autoría, la sinceridad y el significado de la conexión genuina. Una pieza divertida pero estimulante que nos anima a considerar cómo mantener la comunicación auténtica en la era de la IA.

Literatura generada por IA: prejuicio y fluidez

2025-05-03
Literatura generada por IA: prejuicio y fluidez

Este ensayo examina el prejuicio contra las obras literarias generadas por grandes modelos de lenguaje (LLM), un prejuicio análogo a los prejuicios históricos contra las escritoras. El autor argumenta que descartar la escritura de IA como intrínsecamente defectuosa simplemente porque no es humana no está justificado. La pieza profundiza en la relación entre la fluidez lingüística y el pensamiento, demostrando que gran parte del lenguaje humano es habitual y no reflexivo, no fundamentalmente diferente del texto generado por IA. En última instancia, el autor aboga por un enfoque abierto para leer obras generadas por IA, ya que pueden revelar formas inesperadas e innovadoras de expresión lingüística.

El Impacto de la IA en la Ciencia y las Matemáticas: Los Expertos Predicen la Próxima Década

2025-05-03
El Impacto de la IA en la Ciencia y las Matemáticas: Los Expertos Predicen la Próxima Década

Quanta Magazine entrevistó a casi 100 científicos y matemáticos sobre el impacto de la inteligencia artificial en sus campos. Casi todos informaron haber sentido los efectos disruptivos de la IA, ya sea directamente involucrados en su desarrollo o indirectamente influenciados por su potencial. Muchos están adaptando sus enfoques a los experimentos, buscando nuevas colaboraciones o formulando preguntas de investigación totalmente nuevas. El artículo concluye con una pregunta desafiante: ¿A dónde llevará todo esto en los próximos 5 a 10 años? Los expertos coinciden en que el rápido avance de la IA hace que las predicciones precisas sean difíciles, y su impacto continuará durante muchos años.

IA

Google Family Link permitirá a los niños acceder a Gemini AI

2025-05-03
Google Family Link permitirá a los niños acceder a Gemini AI

Google está implementando el acceso a sus aplicaciones Gemini AI para niños a través de sus controles parentales Family Link en dispositivos Android. Si bien Gemini puede ayudar con la tarea y contar historias, Google advierte a los padres que la IA puede cometer errores y los niños pueden encontrar contenido inapropiado. Google asegura que los datos de los niños no se utilizarán para entrenar la IA. Se aconseja a los padres que hablen con sus hijos para explicarles que Gemini no es humano y que eviten compartir información sensible. Los padres mantienen el control a través de Family Link, recibiendo notificaciones al primer acceso de su hijo a Gemini y manteniendo la capacidad de desactivar el acceso por completo.

Robot de DeepMind alcanza nivel competitivo de tenis de mesa humano

2025-05-02
Robot de DeepMind alcanza nivel competitivo de tenis de mesa humano

Un equipo de Google DeepMind ha desarrollado un robot capaz de competir en tenis de mesa al nivel de un experto humano. La investigación, detallada en un artículo publicado y videos, muestra el impresionante rendimiento del robot en un entorno complejo y dinámico, representando un avance significativo en la robótica impulsada por IA. El proyecto involucró a numerosos investigadores de DeepMind, destacando el poder de la investigación colaborativa.

Demo de inferencia GPT-2 en el navegador con WebGL2

2025-05-02
Demo de inferencia GPT-2 en el navegador con WebGL2

Este impresionante proyecto lleva la pasada completa hacia adelante del modelo GPT-2 pequeño (117M de parámetros) al navegador usando WebGL2. Aprovechando los shaders WebGL2 para la computación en la GPU y js-tiktoken para la tokenización BPE (sin necesidad de WASM), ejecuta GPT-2 directamente en el navegador. Un script de Python descarga los pesos preentrenados, y el front-end está construido con Vite para la sustitución de módulos en caliente. Este es un ejemplo fantástico de llevar modelos avanzados de IA al navegador, mostrando las capacidades de vanguardia de las tecnologías web.

IA

IA Genera Más de 500 Mashups Bizarros de Géneros Musicales

2025-05-02
IA Genera Más de 500 Mashups Bizarros de Géneros Musicales

Un misterioso programa de IA ha generado más de 500 combinaciones inusuales de géneros musicales, como "Reggae Árabe Gótico" y "Tuareg de Saxofón". Estas combinaciones combinan audazmente varias culturas y estilos musicales, mostrando las posibilidades ilimitadas de la IA en la creación musical. Esto despierta reflexiones sobre el futuro de la composición musical y proporciona a los músicos nueva inspiración creativa.

IA Género

Los asistentes de escritura basados en IA homogeneizan los estilos de escritura en el Sur Global

2025-05-02
Los asistentes de escritura basados en IA homogeneizan los estilos de escritura en el Sur Global

Un estudio de la Universidad Cornell revela que los asistentes de escritura basados en IA pueden homogeneizar los estilos de escritura hacia las normas occidentales, impactando particularmente a miles de millones de usuarios en el Sur Global. El estudio descubrió que la escritura de usuarios indios y estadounidenses se volvió más similar al usar un asistente de IA, principalmente a expensas de los estilos de escritura indios. Si bien ambos grupos experimentaron un aumento en la velocidad de escritura, los indios vieron una ganancia de productividad menor debido a la corrección frecuente de sugerencias de IA. La IA a menudo sugería alimentos y festivos estadounidenses, incluso reemplazando a celebridades indias por occidentales. Los investigadores denominan esto 'colonialismo de IA', instando a las empresas de tecnología a centrarse en los matices culturales para crear herramientas de IA más inclusivas.

IA Idioma

Dopamina: La señal de 'todo claro' del cerebro para la extinción del miedo

2025-05-01

Neurocientíficos del MIT han descubierto que la liberación de dopamina a lo largo de un circuito cerebral específico actúa como una señal de 'todo claro', enseñando al cerebro a extinguir el miedo. Su investigación en ratones revela que la dopamina se dirige a diferentes poblaciones de neuronas dentro de la amígdala, codificando un recuerdo de extinción del miedo. Este mecanismo, cuando funciona correctamente, restaura la calma; cuando se interrumpe, puede contribuir a la ansiedad o al TEPT. El estudio señala un posible objetivo terapéutico para los trastornos relacionados con el miedo, sugiriendo que las intervenciones podrían modular los receptores de dopamina o neuronas específicas para influir en la formación y la extinción de la memoria del miedo.

El motor de búsqueda en modo IA de Google entra en beta pública

2025-05-01
El motor de búsqueda en modo IA de Google entra en beta pública

Google está implementando su motor de búsqueda en modo IA para un pequeño porcentaje de usuarios en EE. UU. Esta búsqueda con tecnología de IA responderá a las consultas con respuestas generadas por IA basadas en el índice de Google, a diferencia de los resultados de búsqueda tradicionales. Colocado de forma destacada en la pestaña de búsqueda, el modo IA compite con ofertas similares de Perplexity y OpenAI. Google ha eliminado la lista de espera y ha añadido funciones como búsquedas guardadas y tarjetas clicables para productos y lugares, mejorando la experiencia del usuario.

Conjunto de datos de audio de emociones: siete emociones diferentes

2025-05-01

Este conjunto de datos contiene muestras de audio que representan siete emociones diferentes: neutro, feliz, tranquilo, triste, enojado, temeroso, disgustado y sorprendido. El gran número de clips de audio proporciona recursos valiosos para entrenar y probar modelos de reconocimiento de emociones, contribuyendo significativamente al campo de la computación afectiva de la IA.

Waypoint: Automatizando la planificación urbana con IA – Contratación del primer ingeniero

2025-05-01
Waypoint: Automatizando la planificación urbana con IA – Contratación del primer ingeniero

Waypoint está revolucionando la planificación urbana mediante la automatización con IA, abordando las ineficiencias y los altos costos asociados a las empresas consultoras tradicionales. Buscan a su primer ingeniero para construir sus sistemas de ingeniería desde cero. Los proyectos incluyen el ajuste fino de modelos YOLO para la segmentación de aceras, el desarrollo de un sistema para procesar documentos de planificación urbana y la automatización de la generación de recomendaciones de seguridad en intersecciones. El candidato ideal es un programador sólido, un aprendiz rápido, un solucionador de problemas y apasionado por mejorar la planificación urbana.

IA

Integraciones e Investigación Avanzada de Claude: Una Potente Actualización

2025-05-01
Integraciones e Investigación Avanzada de Claude: Una Potente Actualización

Anthropic ha anunciado importantes actualizaciones para Claude, introduciendo Integraciones que permiten a los desarrolladores conectar varias aplicaciones y herramientas, y expandiendo sus capacidades de investigación. El modo de Investigación Avanzada permite a Claude buscar en la web, en Google Workspace y ahora también en las aplicaciones integradas, realizando investigaciones de hasta 45 minutos y proporcionando informes completos con citas. La búsqueda web ahora está disponible globalmente para todos los usuarios de pago de Claude. Estas actualizaciones mejoran significativamente la funcionalidad y la eficiencia de Claude, convirtiéndolo en una herramienta de colaboración más potente.

Las 'Guerras de la Comprensión': Escala versus Significado en la Era de los LLMs

2025-05-01
Las 'Guerras de la Comprensión': Escala versus Significado en la Era de los LLMs

A medida que los modelos transformadores superaron los niveles humanos en los benchmarks de PNL, surgió un debate sobre sus capacidades, culminando en las "guerras de la comprensión" de 2020-22. La "prueba del pulpo" de Bender et al. argumentó que los modelos que imitan el lenguaje estadísticamente no pueden captar el significado. La llegada de GPT-3 intensificó el conflicto, su poder sorprendió a los investigadores mientras planteaba preocupaciones de seguridad y éticas. El debate destacó las discrepancias en metodología y dirección entre la academia y la industria, llevando a una 'guerra civil' interna en el campo de la PNL.

IA

Tendencia preocupante: los recién graduados enfrentan un difícil mercado laboral

2025-05-01
Tendencia preocupante: los recién graduados enfrentan un difícil mercado laboral

El mercado laboral para jóvenes recién graduados en los EE. UU. es significativamente peor que en décadas anteriores. El desempleo se sitúa en un preocupante 5,8%, e incluso los graduados en MBA de élite tienen dificultades. Se ofrecen tres posibles explicaciones: los efectos persistentes de la pandemia y la Gran Recesión; un retorno decreciente de la inversión en un título universitario; y el potencial disruptivo de la IA, que puede automatizar tareas que antes realizaban trabajadores administrativos de nivel inicial. Si bien el impacto de la IA en el empleo aún no está claro, las dificultades de los recién graduados sirven como una advertencia, lo que podría indicar problemas económicos a corto plazo, un cambio en el valor de la educación superior o el impacto a largo plazo de la IA en la fuerza laboral.

Fósiles Digitales en IA: Cómo los Términos Sin Sentido se Incorporan a Nuestro Conocimiento

2025-05-01
Fósiles Digitales en IA: Cómo los Términos Sin Sentido se Incorporan a Nuestro Conocimiento

Científicos descubrieron el término sin sentido "microscopía electrónica vegetativa" propagándose a través de modelos de IA. Originario de errores de digitalización en artículos de la década de 1950 y amplificado por errores de traducción, se integró en grandes modelos de lenguaje. Esto destaca los desafíos de conjuntos de datos de entrenamiento masivos, la falta de transparencia y los errores autoperpetuantes en la IA. El incidente plantea problemas graves para la investigación académica y la publicación, lo que lleva a la reflexión sobre el mantenimiento de sistemas de conocimiento confiables.

La incomprensión de 'vibe coding': Una oportunidad perdida

2025-05-01
La incomprensión de 'vibe coding': Una oportunidad perdida

Dos editoriales y tres autores han malinterpretado fundamentalmente el significado de 'vibe coding', confundiéndolo con la programación asistida por IA. El autor argumenta que el verdadero 'vibe coding', según lo definido por Andrej Karpathy, implica el uso de IA para generar código sin centrarse en los detalles del código; es un enfoque de bajo código para los no programadores. El autor expresa decepción porque las editoriales y los autores no comprendieron completamente la definición de Karpathy, perdiendo una gran oportunidad de crear un libro valioso sobre cómo empoderar a los no programadores para que creen software personalizado usando IA sin aprender programación tradicional.

IA

Hyperparam: La interfaz que faltaba para los datos de IA, ahora de código abierto

2025-05-01

Hyperparam aborda un desafío crítico en el aprendizaje automático: la falta de herramientas fáciles de usar para explorar conjuntos de datos masivos. Su conjunto de herramientas de código abierto, que incluye Hyparquet (lector Parquet en el navegador), Hyparquet-Writer (exportador Parquet), HighTable (tabla React escalable), Icebird (lector Iceberg), Hyllama (analizador de metadatos de modelos LLaMA) y la CLI de Hyperparam, permite la exploración y curación interactivas de datos directamente en el navegador. Al aprovechar formatos de datos eficientes y JavaScript de alto rendimiento, Hyperparam permite a los científicos de datos trabajar con datos a escala de terabytes de forma local y privada, sin una infraestructura de servidor compleja. Este enfoque prioriza la seguridad y el cumplimiento de los datos.

IA

Escándalo de evaluación comparativa de IA: ¿Las grandes tecnológicas manipularon Chatbot Arena?

2025-05-01
Escándalo de evaluación comparativa de IA: ¿Las grandes tecnológicas manipularon Chatbot Arena?

Un nuevo artículo de Cohere, Stanford, MIT y Ai2 acusa a LM Arena, la organización detrás del popular punto de referencia Chatbot Arena, de favorecer injustamente a las grandes empresas de IA como Meta, OpenAI, Google y Amazon. Los investigadores alegan que a estas empresas se les permitió probar variantes de modelos de forma privada, suprimiendo los resultados de bajo rendimiento para mejorar sus clasificaciones en la tabla de clasificación. Al analizar más de 2,8 millones de batallas, el estudio encontró evidencia de tasas de muestreo aumentadas que otorgan a estas empresas una ventaja injusta. LM Arena cuestiona los hallazgos, citando imprecisiones, y planea mejorar su algoritmo de muestreo, pero niega la manipulación de las clasificaciones. La controversia genera preocupaciones sobre la equidad y la transparencia en la evaluación comparativa de IA y destaca las tácticas competitivas empleadas por las grandes empresas tecnológicas en la carrera de la IA.

Ejecutando Qwen3 localmente en tu Mac gratis: Un bucle agéntico con Localforge

2025-05-01
Ejecutando Qwen3 localmente en tu Mac gratis: Un bucle agéntico con Localforge

Esta publicación detalla cómo ejecutar el potente modelo de lenguaje grande Qwen3 en una Mac de forma gratuita, integrándolo en un agente usando Localforge. El autor guía meticulosamente al lector a través de la instalación de la biblioteca MLX, la configuración del servidor de modelos y la configuración de Localforge, mostrando tanto los métodos Ollama como MLX para ejecutar Qwen3. El autor ejecuta con éxito el agente Qwen3 para realizar tareas como listar archivos, incluso mostrando un sitio web creado por el agente. La publicación destaca la viabilidad de ejecutar LLMs potentes localmente y construir agentes sin coste.

IA

Phi Silica: Un Modelo de Lenguaje Pequeño y Altamente Eficiente para PCs con Windows 11 Copilot+

2025-05-01
Phi Silica: Un Modelo de Lenguaje Pequeño y Altamente Eficiente para PCs con Windows 11 Copilot+

El equipo de Ciencias Aplicadas de Microsoft logró un gran avance en la eficiencia de la IA en los PCs con Windows 11 Copilot+ (con procesadores de la serie Snapdragon X) utilizando un enfoque multidisciplinario. Su modelo de lenguaje pequeño, Phi Silica, mejora significativamente la eficiencia energética, la velocidad de inferencia y la eficiencia de la memoria. Phi Silica impulsa varias funciones de Copilot+ PC, incluyendo Click to Do, capacidades de reescritura y resumen en el dispositivo en Word y Outlook, y proporciona un SLM preoptimizado para los desarrolladores. Técnicas como la cuantificación de pesos de 4 bits, las incrustaciones mapeadas en memoria y QuaRot (un nuevo método de cuantificación de 4 bits) reducen drásticamente la huella de memoria y logran una inferencia cuantificada de 4 bits de alta precisión. Tiene un tiempo hasta el primer token de 230 ms para indicaciones cortas y una tasa de rendimiento de hasta 20 tokens/segundo.

Microsoft Presenta Phi-4 Reasoning: Modelos de Lenguaje Pequeños con Grandes Capacidades de Razonamiento

2025-05-01
Microsoft Presenta Phi-4 Reasoning: Modelos de Lenguaje Pequeños con Grandes Capacidades de Razonamiento

Microsoft ha presentado su nueva familia de modelos de lenguaje pequeños (MLLs) Phi-4, incluyendo Phi-4-reasoning, Phi-4-reasoning-plus y Phi-4-mini-reasoning. Estos modelos demuestran impresionantes capacidades de razonamiento, especialmente en razonamiento matemático, superando incluso a modelos más grandes en algunos puntos de referencia. Phi-4-mini-reasoning está optimizado para entornos con recursos limitados, como dispositivos móviles y computación perimetral. Microsoft destaca su compromiso con la IA responsable, empleando varias medidas de seguridad para mitigar los riesgos potenciales. Estos modelos están disponibles en Azure AI Foundry y Hugging Face, y algunos están integrados en los PC Copilot+ de Windows 11.

DeepSeek-Prover-V2: Avanzando el razonamiento matemático formal mediante aprendizaje por refuerzo

2025-04-30
DeepSeek-Prover-V2: Avanzando el razonamiento matemático formal mediante aprendizaje por refuerzo

DeepSeek-Prover-V2 es un modelo de lenguaje grande de código abierto diseñado para la demostración de teoremas formales en Lean 4. Utiliza un pipeline de demostración de teoremas recursivo impulsado por DeepSeek-V3 y aprendizaje por refuerzo para integrar el razonamiento matemático informal y formal. El modelo comienza descomponiendo problemas complejos en subobjetivos usando DeepSeek-V3, sintetizando las demostraciones de estos subobjetivos para crear datos iniciales para el aprendizaje por refuerzo. DeepSeek-Prover-V2-671B logra un rendimiento de vanguardia, alcanzando una tasa de aprobación del 88,9% en MiniF2F-test y resolviendo 49 problemas de PutnamBench. También se presenta un nuevo conjunto de datos de referencia, ProverBench, que contiene 325 problemas formalizados de competiciones de secundaria y libros de texto.

MiMo-7B: Modelo de lenguaje de 7B parámetros para razonamiento supera a modelos de 32B

2025-04-30
MiMo-7B: Modelo de lenguaje de 7B parámetros para razonamiento supera a modelos de 32B

Xiaomi presenta MiMo-7B, un modelo de lenguaje de 7 mil millones de parámetros diseñado para el razonamiento. A través de datos y estrategias de preentrenamiento optimizados, junto con técnicas innovadoras de aprendizaje por refuerzo, MiMo-7B demuestra un rendimiento excepcional en tareas de razonamiento matemático y de código, superando incluso a modelos de 32 mil millones de parámetros más grandes. El modelo de código abierto incluye puntos de control para el modelo base, el modelo SFT y los modelos entrenados con RL, ofreciendo recursos valiosos para el desarrollo de LLMs de razonamiento potentes.

Explosión de Modelos de IA: La Carrera a la Cima en 2024-2025

2025-04-30

Los años 2024 y 2025 fueron testigos de un auge sin precedentes en el desarrollo de modelos de IA. Desde Stable Diffusion 3 hasta GPT-4o, desde Gemini hasta Claude 3, los gigantes tecnológicos y las startups lanzaron una avalancha de nuevos modelos, provocando una intensa competencia en la generación de imágenes, la generación de vídeo, la generación de texto y la multimodalidad. El auge de los modelos de código abierto impulsó aún más el rápido avance y la accesibilidad de la tecnología de IA. Esta 'batalla de modelos' continúa evolucionando, con recuentos de parámetros y capacidades cada vez mayores, dando forma, en última instancia, al panorama futuro de la IA.

IA

Prueba de Aleatoriedad de LLM Revela Sesgo Inesperado

2025-04-30

Este experimento probó la aleatoriedad de varios Modelos de Lenguaje Grandes (LLM) de OpenAI y Anthropic. Al hacer que los modelos lanzaran una moneda y predijeran números aleatorios entre 0 y 10, los investigadores descubrieron un sesgo significativo en sus resultados, revelando que no son realmente aleatorios. Por ejemplo, en el experimento del lanzamiento de la moneda, todos los modelos mostraron preferencia por 'cara', con GPT-o1 mostrando el sesgo más extremo en un 49%. En la predicción de números pares/impares, la mayoría de los modelos favorecieron los números impares, con Claude 3.7 Sonnet mostrando el sesgo más fuerte en un 47%. Los hallazgos destacan que incluso los LLM avanzados pueden exhibir patrones inesperados influenciados por sus distribuciones de datos de entrenamiento.

1 2 19 20 21 23 25 26 27 40 41