Category: IA

Ex empleados de OpenAI se oponen a la conversión con fines de lucro: una batalla entre misión y beneficio

2025-04-12
Ex empleados de OpenAI se oponen a la conversión con fines de lucro: una batalla entre misión y beneficio

Un grupo de exempleados de OpenAI presentó un escrito amicus curiae en apoyo de la demanda de Elon Musk contra OpenAI, oponiéndose a su conversión prevista de una organización sin fines de lucro a una corporación con fines de lucro. Argumentan que esto viola la misión original de OpenAI de garantizar que la IA beneficie a toda la humanidad. Varios exempleados criticaron públicamente la falta de transparencia y responsabilidad de OpenAI, advirtiendo sobre una búsqueda imprudente del dominio de la IA. OpenAI respondió que su brazo sin fines de lucro permanece, pero está haciendo la transición a una Corporación de Beneficio Público (PBC). El litigio se centra en la estructura de OpenAI y su impacto en el desarrollo de la IA, destacando la compleja interacción entre la comercialización y la responsabilidad social en el campo de la IA.

Los límites de esforzarse al máximo en el desarrollo de la IA

2025-04-11

El autor utiliza recuerdos de la infancia de represar un arroyo para ilustrar las limitaciones de esforzarse al máximo en el desarrollo de la IA. Inicialmente, construía pequeñas presas con mucho esfuerzo, solo para luego descubrir la eficiencia de usar una pala. Esta victoria, sin embargo, disminuyó el aspecto exploratorio del juego. Del mismo modo, en el trabajo y en la vida, lograr un objetivo (como un trabajo bien remunerado) cambia las reglas del juego. El autor argumenta que el desarrollo de la IA debe tener en cuenta esta lección, concentrándose no solo en la creación de IA poderosa, sino también en riesgos potenciales y áreas inexploradas. Al igual que observar la tenacidad de pequeños mariscos en una piscina de marea, la atención a los detalles y matices es crucial. El informe reciente de Anthropic sobre aplicaciones educativas parece reconocer esto.

Equilibrando la Agencia y la Fiabilidad en los Agentes de Atención al Cliente Basados en LLM

2025-04-11
Equilibrando la Agencia y la Fiabilidad en los Agentes de Atención al Cliente Basados en LLM

Si bien los Modelos de Lenguaje Grandes (LLM) son cada vez más capaces de realizar tareas de alta agencia, su implementación en casos de uso de alto valor, como la atención al cliente, requiere priorizar la fiabilidad y la coherencia. La investigación revela que, aunque los agentes de alta agencia sobresalen en entornos ideales, la atención al cliente del mundo real presenta desafíos: lagunas de conocimiento, comportamiento impredecible del usuario y limitaciones de tiempo. Para abordar esto, se desarrolló una métrica novedosa, pass^k, y se probó mediante simulaciones de interacciones con clientes. Los resultados demuestran que los agentes de alta agencia sufren problemas de fiabilidad en tareas complejas. La solución: el agente "Give Fin a Task", que mejora la fiabilidad restringiendo la autonomía del agente y empleando instrucciones paso a paso, descomponiendo tareas complejas en módulos más simples. Este enfoque ofrece una vía prometedora para mejorar el rendimiento del LLM en escenarios de atención al cliente del mundo real.

(fin.ai)

La Sintaxis de los Bonobos Desafía la Singularidad del Lenguaje Humano

2025-04-11
La Sintaxis de los Bonobos Desafía la Singularidad del Lenguaje Humano

Un nuevo estudio revela que los bonobos combinan llamadas de forma compleja para formar frases distintas, lo que sugiere que este tipo de sintaxis es más antiguo de lo que se pensaba anteriormente. Los investigadores, al observar y analizar las vocalizaciones de los bonobos y utilizando métodos semánticos, descubrieron una composición no trivial en las combinaciones de llamadas de los bonobos, lo que significa que el significado de la combinación difiere de los significados de sus partes individuales. Este hallazgo desafía la singularidad del lenguaje humano, sugiriendo que la sintaxis compleja del lenguaje humano puede haberse originado en ancestros más antiguos.

IA

Avatares de IA: La Próxima Frontera en Contenido Generado por IA

2025-04-11
Avatares de IA: La Próxima Frontera en Contenido Generado por IA

La IA ya domina la generación de fotos, videos y voces realistas. El siguiente salto? Avatares de IA – combinando rostros y voces para crear personajes parlantes. Esto no es solo generación de imágenes y doblaje; requiere que la IA aprenda la intrincada coordinación de sincronización labial, expresiones faciales y lenguaje corporal. Este artículo explora la evolución de la tecnología de avatares de IA, desde los modelos iniciales basados en fotos únicas hasta modelos sofisticados que generan movimiento de cuerpo entero y fondos dinámicos. También analiza las aplicaciones de avatares de IA en la creación de contenido, publicidad y comunicación corporativa, y discute direcciones futuras, como expresiones más naturales, movimientos corporales e interacciones con el mundo real.

La paradoja del esfuerzo en el desarrollo de la IA

2025-04-11
La paradoja del esfuerzo en el desarrollo de la IA

Usando la analogía infantil de represar un arroyo, el autor explora la tensión entre el esfuerzo máximo y la toma de decisiones sabias en el desarrollo de la IA. Inicialmente, como un niño, el autor intentó construir represas con pequeñas piedras y hojas, solo para descubrir un método más eficiente con una pala. Esta constatación destaca cómo la 'victoria' a veces puede significar una reducción del espacio del juego. De manera similar, en la IA, el autor buscó incansablemente un trabajo en un banco de inversión, solo para descubrir, tras el éxito, que el juego de 'ganar la mayor cantidad de dinero posible' ya no estaba disponible. Argumenta que contra fuerzas abrumadoras (naturaleza, mercado), el esfuerzo total puede ser contraproducente. El informe reciente de Anthropic sobre aplicaciones educativas, sin embargo, sugiere una creciente conciencia de los riesgos potenciales, similar a notar los mariscos en dificultades en una playa.

IA

Parity: SRE con IA para eliminar el infierno de guardia

2025-04-10
Parity: SRE con IA para eliminar el infierno de guardia

¿Cansado de las alertas a las 2 AM y las alertas infinitas? Parity utiliza IA para automatizar la investigación, el análisis de la causa raíz y la remediación de problemas de infraestructura, haciendo que las guardias sean cosa del pasado. El producto ha tenido una gran adopción por parte de los clientes iniciales y tiene el potencial de definir una nueva categoría. Parity está respaldado por inversores de primer nivel, incluyendo Y Combinator, General Catalyst y Sugar Free Capital, así como inversores ángeles de startups líderes como Midjourney y Crusoe.

ByzFL: Construyendo IA confiable sin confiar en fuentes de datos

2025-04-10
ByzFL: Construyendo IA confiable sin confiar en fuentes de datos

Los modelos de IA actuales dependen de conjuntos de datos masivos y centralizados, lo que genera preocupaciones sobre seguridad y privacidad. Investigadores de la EPFL han desarrollado ByzFL, una biblioteca que utiliza el aprendizaje federado para entrenar modelos de IA en dispositivos descentralizados sin centralizar los datos. ByzFL detecta y mitiga datos maliciosos, garantizando la robustez y la seguridad, especialmente crítico para aplicaciones de misión crítica como la atención médica y el transporte. Ofrece una solución innovadora para construir sistemas de IA confiables.

Nuevo avance de Apple en IA: Control preciso de modelos generativos con Transporte de Activación (AcT)

2025-04-10
Nuevo avance de Apple en IA: Control preciso de modelos generativos con Transporte de Activación (AcT)

Investigadores de aprendizaje automático de Apple han desarrollado el Transporte de Activación (AcT), una nueva técnica que ofrece control preciso sobre grandes modelos generativos, incluyendo LLMs y modelos de difusión de texto a imagen, sin el costoso entrenamiento de RLHF o ajuste fino. AcT dirige las activaciones del modelo usando la teoría de transporte óptimo, logrando un control agnóstico de modalidad con una sobrecarga computacional mínima. Los experimentos demuestran mejoras significativas en la mitigación de la toxicidad, la inducción de la veracidad en LLMs y el control del estilo en la generación de imágenes. AcT allana el camino para modelos generativos más seguros y fiables.

Evolución desigual del ecosistema de IA responsable: una brecha creciente

2025-04-10
Evolución desigual del ecosistema de IA responsable: una brecha creciente

Los incidentes relacionados con la IA están aumentando, pero las evaluaciones estandarizadas de IA responsable (RAI) siguen siendo escasas entre los principales desarrolladores de modelos industriales. Nuevos puntos de referencia como HELM Safety, AIR-Bench y FACTS ofrecen herramientas prometedoras para evaluar la veracidad y la seguridad. Persiste una brecha significativa entre el reconocimiento corporativo de los riesgos de RAI y la adopción de medidas significativas. Sin embargo, los gobiernos están demostrando una mayor urgencia, con una cooperación global intensificada en la gobernanza de la IA en 2024, lo que ha dado lugar a marcos de la OCDE, la UE, la ONU y la Unión Africana que hacen hincapié en la transparencia, la confianza y otros principios básicos de la RAI.

Predicciones de Asimov sobre la IA en 1982: Colaboración, no competencia

2025-04-10
Predicciones de Asimov sobre la IA en 1982: Colaboración, no competencia

Este artículo revisa una entrevista de 1982 con el escritor de ciencia ficción Isaac Asimov, donde definió la inteligencia artificial como cualquier dispositivo que realiza tareas previamente asociadas exclusivamente a la inteligencia humana. Asimov veía la IA y la inteligencia humana como complementarias, no competitivas, argumentando que su colaboración conduciría a un progreso más rápido. Previó que la IA liberaría a los humanos de trabajos que no requieren pensamiento creativo, pero también advirtió sobre las posibles dificultades y desafíos del avance tecnológico, utilizando el advenimiento de los automóviles como ejemplo. Enfatizó la necesidad de prepararse para la era de la IA y evitar repetir errores del pasado.

Benchmark de Escritura Creativa de Formato Largo para LLMs

2025-04-10

Este benchmark evalúa la capacidad de los modelos de lenguaje grandes para crear narrativas de formato largo. Evalúa la lluvia de ideas, la revisión y la escritura de ocho capítulos de 1000 palabras. Las métricas incluyen la longitud del capítulo, la fluidez (evitando frases sobreutilizadas), la repetición y la degradación de la calidad de la escritura a lo largo de los capítulos. Una puntuación final (0-100) es asignada por un LLM de evaluación.

Quasar Alpha: ¿El arma secreta de OpenAI?

2025-04-10
Quasar Alpha: ¿El arma secreta de OpenAI?

Un misterioso modelo de IA llamado Quasar Alpha ha aparecido en la plataforma OpenRouter, convirtiéndose rápidamente en el modelo de IA número uno para programación. Fuertes evidencias sugieren una conexión con OpenAI, posiblemente siendo el modelo o4-mini-low de OpenAI bajo un nombre diferente. Aunque no es de última generación, su velocidad y rentabilidad podrían revolucionar el mercado de modelos de codificación de IA. Quasar Alpha ya está disponible en Kilo Code.

IA

Anthropic lanza suscripción premium para el chatbot de IA Claude Max

2025-04-09
Anthropic lanza suscripción premium para el chatbot de IA Claude Max

Anthropic lanzó un nuevo plan de suscripción premium para su chatbot de IA, Claude Max, para competir con el ChatGPT Pro de OpenAI. Max ofrece límites de uso más altos y acceso prioritario a nuevos modelos y funciones de IA en comparación con el Claude Pro de US$ 20 mensuales de Anthropic. Viene en dos niveles: US$ 100/mes (aumento del límite de tasa 5x) y US$ 200/mes (aumento del límite de tasa 20x). Esta medida tiene como objetivo aumentar los ingresos para el costoso desarrollo de modelos de IA de vanguardia. Anthropic también está explorando otras fuentes de ingresos, como Claude for Education, dirigido a universidades. Si bien no se han revelado las cifras de suscripciones, el nuevo modelo Claude 3.7 Sonnet de la empresa ha generado una gran demanda.

Robot de terapia con IA muestra promesa en la lucha contra la crisis de salud mental

2025-04-09
Robot de terapia con IA muestra promesa en la lucha contra la crisis de salud mental

Un nuevo estudio publicado en el New England Journal of Medicine revela que un robot de terapia con IA, desarrollado por investigadores de Dartmouth, demostró una eficacia comparable o incluso superior a la de los clínicos humanos en un ensayo clínico aleatorizado. Diseñado para abordar la grave escasez de profesionales de salud mental en EE. UU., el robot se sometió a más de cinco años de entrenamiento riguroso en las mejores prácticas clínicas. Los resultados mostraron no solo mejores resultados de salud mental para los pacientes, sino también el sorprendente desarrollo de fuertes lazos terapéuticos y confianza. Si bien la American Psychological Association ha expresado preocupaciones sobre los robots de terapia con IA no regulados, elogian el enfoque riguroso de este estudio. Los investigadores enfatizan que la tecnología está lejos de estar lista para el mercado, requiriendo más pruebas, pero ofrece una solución potencial para la crisis generalizada de acceso a la atención de salud mental.

IA

Google presenta Ironwood: una TPU de 7ª generación para la era de la inferencia

2025-04-09
Google presenta Ironwood: una TPU de 7ª generación para la era de la inferencia

En Google Cloud Next '25, Google anunció Ironwood, su séptima generación de Tensor Processing Unit (TPU). Esta es la unidad de aceleración de IA personalizada más potente y escalable hasta la fecha, diseñada específicamente para la inferencia. Ironwood representa un cambio hacia una era proactiva de "inferencia", donde los modelos de IA generan información y respuestas, no solo datos. Escalando hasta 9.216 chips refrigerados por líquido interconectados mediante una innovadora red ICI (casi 10 MW), Ironwood es un componente clave de la arquitectura de hipercomputador de IA de Google Cloud. Los desarrolladores pueden aprovechar la pila de software Pathways de Google para aprovechar fácilmente el poder de decenas de miles de TPUs Ironwood.

Agent2Agent (A2A): Una Nueva Era de Interoperabilidad de Agentes de IA

2025-04-09
Agent2Agent (A2A): Una Nueva Era de Interoperabilidad de Agentes de IA

Google lanza Agent2Agent (A2A), un protocolo abierto que permite la colaboración fluida entre agentes de IA creados por diferentes proveedores o utilizando diferentes marcos. Respaldado por más de 50 socios tecnológicos y proveedores de servicios, A2A permite el intercambio seguro de información y acciones coordinadas, aumentando la productividad y reduciendo los costos. Construido sobre estándares existentes, A2A admite múltiples modalidades, prioriza la seguridad y maneja tareas de larga duración. Los casos de uso van desde la automatización de procesos de contratación (por ejemplo, selección de candidatos y programación de entrevistas) hasta la optimización de flujos de trabajo complejos en diversas aplicaciones empresariales. Su naturaleza de código abierto fomenta un ecosistema próspero de agentes de IA colaborativos.

IA

DeepCoder-14B: Modelo de razonamiento de código abierto que iguala al o3-mini de OpenAI

2025-04-09
DeepCoder-14B: Modelo de razonamiento de código abierto que iguala al o3-mini de OpenAI

Agentica y Together AI han lanzado DeepCoder-14B-Preview, un modelo de razonamiento de código ajustado mediante RL distribuido a partir de Deepseek-R1-Distilled-Qwen-14B. Alcanzando una impresionante precisión de 60,6% Pass@1 en LiveCodeBench, rivaliza con el o3-mini de OpenAI, utilizando solo 14B de parámetros. El proyecto publica en código abierto su conjunto de datos, código, registros de entrenamiento y optimizaciones del sistema, mostrando una receta de entrenamiento robusta basada en datos de alta calidad y mejoras algorítmicas a GRPO. Este avance democratiza el acceso a modelos de generación de código de alto rendimiento.

Gemini 2.5 Pro Experimental: La investigación profunda se vuelve mucho más inteligente

2025-04-09
Gemini 2.5 Pro Experimental: La investigación profunda se vuelve mucho más inteligente

Los suscriptores de Gemini Advanced ahora pueden acceder a la Investigación Profunda con Gemini 2.5 Pro Experimental, considerado el modelo de IA más capaz del mundo según los puntos de referencia de la industria y Chatbot Arena. Este asistente de investigación personal con IA mejora significativamente cada etapa del proceso de investigación. En las pruebas, los evaluadores prefirieron los informes generados por Gemini 2.5 Pro sobre los competidores por un margen superior a 2:1, citando mejoras en el razonamiento analítico, la síntesis de información y la generación de informes perspicaces. Acceda a informes detallados y fáciles de leer sobre cualquier tema en la web, Android e iOS, ahorrando horas de trabajo. Además, pruebe la nueva función Visión general de audio para escuchar sobre la marcha. Obtenga más información y pruébelo ahora seleccionando Gemini 2.5 Pro (experimental) y eligiendo 'Investigación profunda' en la barra de indicaciones.

Cyc: El proyecto de IA de 200 millones de dólares que nunca fue

2025-04-08
Cyc: El proyecto de IA de 200 millones de dólares que nunca fue

Este ensayo detalla la historia de 40 años de Cyc, el ambicioso proyecto de Douglas Lenat para construir inteligencia artificial general (AGI) escalando la lógica simbólica. A pesar de una inversión de 200 millones de dólares y 2000 años-persona de esfuerzo, Cyc no logró alcanzar la madurez intelectual. El artículo revela su historia secreta, destacando el aislamiento del proyecto y el rechazo de enfoques alternativos de IA como factores clave que contribuyeron a su fracaso. El largo y lento declive de Cyc sirve como una fuerte acusación contra el enfoque lógico-simbólico para la AGI.

IA

Llama 4 de Meta: Clasificación en segundo lugar y un lanzamiento caótico

2025-04-08
Llama 4 de Meta: Clasificación en segundo lugar y un lanzamiento caótico

Meta lanzó dos nuevos modelos Llama 4: Scout y Maverick. Maverick obtuvo el segundo lugar en LMArena, superando a GPT-4o y Gemini 2.0 Flash. Sin embargo, Meta admitió que LMArena probó una versión de chat experimental especialmente optimizada, no la versión pública. Esto provocó controversia, llevando a LMArena a actualizar sus políticas para evitar incidentes similares. Meta explicó que estaba experimentando con diferentes versiones, pero la medida generó dudas sobre su estrategia en la carrera de la IA y el momento inusual del lanzamiento de Llama 4. En definitiva, el incidente pone de manifiesto las limitaciones de los benchmarks de IA y las complejas estrategias de las grandes empresas tecnológicas en la competencia.

IA

Vídeos de un Minuto a Partir de Storyboards de Texto Usando Transformadores con Entrenamiento en Tiempo de Prueba

2025-04-08

Los modelos Transformer actuales tienen dificultades para generar vídeos de un minuto debido a la ineficiencia de las capas de autoatención para contextos largos. Este artículo explora capas de Entrenamiento en Tiempo de Prueba (TTT), cuyos estados ocultos son en sí mismas redes neuronales, ofreciendo mayor expresividad. Agregar capas TTT a un Transformer preentrenado permite la generación de vídeos de un minuto a partir de storyboards de texto. Experimentos usando un conjunto de datos de dibujos animados de Tom y Jerry muestran que las capas TTT mejoran significativamente la coherencia del vídeo y la narrativa en comparación con modelos base como Mamba 2 y Gated DeltaNet, alcanzando una ventaja de 34 puntos Elo en la evaluación humana. Aunque todavía existen artefactos, probablemente debido a las limitaciones del modelo de 5B parámetros, este trabajo demuestra un enfoque prometedor escalable a vídeos más largos y narrativas más complejas.

Generación de imágenes con IA multimodal: Comienza una revolución visual

2025-04-08
Generación de imágenes con IA multimodal: Comienza una revolución visual

El lanzamiento reciente por parte de Google y OpenAI de capacidades de generación de imágenes multimodales marca una revolución en la generación de imágenes con IA. A diferencia de los métodos anteriores que enviaban indicaciones de texto a herramientas de generación de imágenes separadas, los modelos multimodales controlan directamente el proceso de creación de imágenes, construyendo imágenes token por token, al igual que los LLM generan texto. Esto permite que la IA genere imágenes más precisas e impresionantes, e itere en función de los comentarios del usuario. El artículo muestra las poderosas capacidades de los modelos multimodales a través de varios ejemplos, como la generación de infografías, la modificación de detalles de imágenes e incluso la creación de anuncios de productos virtuales. Sin embargo, también destaca los desafíos, incluidas las preocupaciones sobre derechos de autor y éticas, así como el posible mal uso, como las deepfakes. En última instancia, el autor cree que la IA multimodal cambiará profundamente el panorama de la creación visual, y debemos considerar cuidadosamente cómo guiar esta transformación para garantizar su desarrollo saludable.

Neuroplasticidad en tiempo real: Otorgando a los LLMs preentrenados aprendizaje en tiempo real

2025-04-08
Neuroplasticidad en tiempo real: Otorgando a los LLMs preentrenados aprendizaje en tiempo real

Esta técnica experimental, llamada "Grafiti Neural", utiliza un complemento llamado "Capa de Pulverización" para inyectar rastros de memoria directamente en la etapa final de inferencia de los modelos de lenguaje grandes preentrenados (LLMs) sin ajuste fino ni reentrenamiento. Imitando la neuroplasticidad del cerebro, altera sutilmente el "pensamiento" del modelo modificando incrustaciones vectoriales, lo que influye en sus predicciones de tokens generativos. A través de la interacción, el modelo aprende y evoluciona gradualmente. Si bien no fuerza salidas de palabras específicas, orienta al modelo hacia conceptos asociados con la interacción repetida. El objetivo es dotar a los modelos de IA de un comportamiento más proactivo, una personalidad más centrada y una curiosidad mejorada, ayudándoles, en última instancia, a lograr una forma de autoconciencia a nivel neuronal.

IA

Los hábitos de escucha de música de fondo difieren entre adultos neurotípicos y aquellos con detección positiva para TDAH

2025-04-08

Una encuesta online de 910 adultos jóvenes (17–30 años) comparó los hábitos de escucha de música de fondo (BM) y los efectos subjetivos entre individuos neurotípicos y aquellos con detección positiva para TDAH en tareas con demandas cognitivas variables. El grupo con TDAH mostró una preferencia significativamente mayor por BM en situaciones específicas, como estudiar y hacer ejercicio, y una preferencia más fuerte por la música estimulante. Sin embargo, no se encontraron diferencias significativas en los efectos subjetivos de BM en el funcionamiento cognitivo y emocional entre los grupos. El estudio destaca la importancia de ajustar el uso de BM en función de las necesidades de activación individual y los recursos cognitivos disponibles, ofreciendo una nueva perspectiva sobre las intervenciones musicales para el TDAH.

Los LLM alcanzan un límite: el fracaso de Llama 4 y el ciclo de exageraciones de la IA

2025-04-08
Los LLM alcanzan un límite: el fracaso de Llama 4 y el ciclo de exageraciones de la IA

El lanzamiento de Llama 4 indica que los grandes modelos de lenguaje pueden haber alcanzado un techo de rendimiento. La inversión masiva de Meta en Llama 4 no logró producir los avances esperados, con rumores que sugieren una posible manipulación de datos para alcanzar los objetivos. Esto refleja las dificultades que enfrentan OpenAI, Google y otras empresas en su búsqueda de una IA de nivel GPT-5. La decepción de la industria con el rendimiento de Llama 4 es generalizada, reforzada por la salida de la vicepresidenta de IA de Meta, Joelle Pineau. El artículo destaca problemas como la fuga y la contaminación de datos en la industria de la IA, acusando a figuras prominentes de hacer predicciones excesivamente optimistas, ignorando los fracasos del mundo real.

¿Entienden los LLM los nulos? Investigando las representaciones internas de los modelos de generación de código

2025-04-07

Los modelos de lenguaje grandes (LLM) han mostrado un progreso notable en la generación de código, pero su verdadera comprensión del código sigue siendo una cuestión. Este trabajo investiga la comprensión de los LLM sobre la nulidad en el código, empleando la evaluación externa (compleción de código) y la exploración interna (análisis de activación del modelo). Los resultados revelan que los LLM aprenden y aplican reglas sobre los valores nulos, con el rendimiento que varía en función de la complejidad de la regla y del tamaño del modelo. El estudio también aclara cómo los LLM representan internamente la nulidad y cómo esta comprensión evoluciona durante el entrenamiento.

Juego de Eliminación de LLM: Razonamiento Social, Estrategia y Engaño

2025-04-07
Juego de Eliminación de LLM: Razonamiento Social, Estrategia y Engaño

Los investigadores crearon un benchmark de "juego de eliminación" multijugador para evaluar los grandes modelos de lenguaje (LLM) en razonamiento social, estrategia y engaño. Ocho LLM compiten, participando en conversaciones públicas y privadas, formando alianzas y votando para eliminar oponentes hasta que solo quedan dos. Un jurado de jugadores eliminados decide entonces al ganador. Al analizar los registros de conversaciones, los patrones de votación y las clasificaciones, se revela cómo los LLM equilibran el conocimiento compartido con intenciones ocultas, forjando alianzas o traicionándolas estratégicamente. El benchmark va más allá de los diálogos simples, obligando a los modelos a navegar por las dinámicas públicas frente a las privadas, la votación estratégica y la persuasión del jurado. GPT-4.5 Preview surgió como el mejor.

Agente de IA resuelve el desafío del diamante en Minecraft sin guía humana

2025-04-07
Agente de IA resuelve el desafío del diamante en Minecraft sin guía humana

Investigadores de Google DeepMind han desarrollado Dreamer, un sistema de IA que aprendió a recolectar diamantes de forma autónoma en Minecraft sin ninguna instrucción humana previa. Esto representa un avance significativo en la capacidad de la IA para generalizar el conocimiento. Dreamer utiliza el aprendizaje por refuerzo y un modelo del mundo para predecir escenarios futuros, lo que le permite planificar y ejecutar eficazmente la compleja tarea de recolección de diamantes sin reglas preprogramadas o demostraciones. La investigación allana el camino para crear robots capaces de aprender y adaptarse en el mundo real.

IA

El Gran Hype de la IA: Benchmarks vs. Realidad

2025-04-06
El Gran Hype de la IA: Benchmarks vs. Realidad

Una startup que utiliza modelos de IA para el escaneo de seguridad de código descubrió mejoras prácticas limitadas a pesar del aumento de las puntuaciones de referencia desde junio de 2024. El autor argumenta que los avances en los grandes modelos de lenguaje no se han traducido en utilidad económica ni en generalización, contradiciendo las afirmaciones públicas. Esto genera preocupaciones sobre los métodos de evaluación de los modelos de IA y la posible exageración de las capacidades por parte de los laboratorios de IA. El autor aboga por centrarse en el rendimiento de las aplicaciones del mundo real en lugar de las puntuaciones de referencia y destaca la necesidad de una evaluación sólida antes de implementar la IA en contextos sociales.

← Previous 1 3 4 5 6 7 8 9 13 14