Category: IA

Aleaciones de Modelos: Un Arma Secreta para Impulsar el Rendimiento de la IA

2025-07-21
Aleaciones de Modelos: Un Arma Secreta para Impulsar el Rendimiento de la IA

El equipo de XBOW mejoró drásticamente el rendimiento de sus agentes de detección de vulnerabilidades utilizando una técnica inteligente llamada "aleaciones de modelos". Este enfoque aprovecha las fortalezas de diferentes LLM (como Google Gemini y Anthropic Sonnet), alternando entre ellos en un solo hilo de chat para superar las limitaciones de los modelos individuales. Los experimentos mostraron que esta estrategia de "aleación" aumentó las tasas de éxito a más del 55%, superando significativamente a los modelos individuales. Esta técnica no se limita a la ciberseguridad; es relevante para cualquier tarea de agente de IA que requiera soluciones en un vasto espacio de búsqueda.

Agentes de IA: El bombo vs. la realidad en 2025

2025-07-20
Agentes de IA: El bombo vs. la realidad en 2025

Si bien 2025 se promociona como el año de los agentes de IA, un experimentado constructor de sistemas de IA en producción argumenta lo contrario. Basándose en un año de construcción de más de una docena de sistemas de agentes en producción, destaca tres realidades clave a menudo pasadas por alto: tasas de error exponencialmente compuestas en flujos de trabajo de varios pasos; escalado de costos cuadrático de las ventanas de contexto; y el desafío crucial de diseñar herramientas y sistemas de retroalimentación efectivos para los agentes. Afirma que los sistemas de agentes de IA exitosos no son totalmente autónomos, sino que integran la IA con la supervisión humana y la ingeniería de software tradicional, operando dentro de límites definidos con operaciones verificables y mecanismos de reversión. El futuro, predice, favorecerá a los equipos que construyen herramientas restringidas y específicas de dominio, aprovechando la IA para tareas complejas mientras mantienen el control humano. El enfoque debe cambiar de 'autonomía total' a 'asistentes extremadamente capaces con límites claros'.

Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen

2025-07-20
Evolución de la Arquitectura de LLMs en 2025: Inmersiones Profundas en DeepSeek, OLMo, Gemma, Mistral y Qwen

Este artículo revisa los avances arquitectónicos en los modelos de lenguaje grandes (LLMs) durante 2025, centrándose en modelos de código abierto como DeepSeek, OLMo, Gemma, Mistral y Qwen. DeepSeek V3/R1 mejora la eficiencia computacional con Atención Latente Multi-Cabeza (MLA) y Mezcla de Expertos (MoE). OLMo 2 enfatiza la colocación de RMSNorm, empleando Post-Norm y QK-Norm. Gemma 3 utiliza atención de ventana deslizante para reducir los requisitos de memoria. Mistral Small 3.1 equilibra rendimiento y velocidad. Qwen 3 ofrece variantes densas y MoE para flexibilidad. SmolLM3 destaca por su tamaño de 3B parámetros y NoPE (Sin Embeddings Posicionales). Finalmente, Kimi 2 impresiona con su escala de billones de parámetros y el optimizador Muon. Estos modelos muestran innovaciones en mecanismos de atención, normalización, MoE y optimizadores, demostrando la diversidad y la evolución continua de las arquitecturas de LLM.

CLJ-AGI: Un nuevo benchmark para IAG

2025-07-20

CLJ-AGI propone un nuevo benchmark para la Inteligencia Artificial General (IAG). El benchmark desafía a una IA a mejorar el lenguaje de programación Clojure con características como un diseño que prioriza los transducers, pereza opcional, protocolos ubicuos y estructuras de datos CRDT de primera clase. El éxito, definido como lograr estas mejoras manteniendo la compatibilidad con versiones anteriores del código Clojure, otorga una recompensa sustancial, lo que significa un paso significativo hacia la verdadera IAG.

IA

LLM locales vs. Wikipedia sin conexión: Una comparación de tamaño

2025-07-20

Un artículo en MIT Technology Review inició una discusión sobre el uso de LLM sin conexión en un escenario apocalíptico. Esto llevó al autor a comparar los tamaños de los LLM locales y las descargas de Wikipedia sin conexión. Los resultados mostraron que los LLM locales más pequeños (como Llama 3.2 3B) son aproximadamente comparables en tamaño a una selección de 50.000 artículos de Wikipedia, mientras que la Wikipedia completa es mucho más grande que incluso los LLM más grandes. Aunque sus propósitos son diferentes, esta comparación revela un contraste interesante en el espacio de almacenamiento entre los LLM locales y las bases de conocimiento sin conexión.

IA

El intento de Zuckerberg de contratar empleados de OpenAI por US$ 100 millones fracasa

2025-07-20
El intento de Zuckerberg de contratar empleados de OpenAI por US$ 100 millones fracasa

Mark Zuckerberg, CEO de Meta, intentó atraer a empleados de ChatGPT a su equipo de IA con ofertas de hasta US$ 100 millones, según Sam Altman, CEO de OpenAI. A pesar de estas ofertas exorbitantes, la iniciativa de reclutamiento fracasó en gran medida. Altman reveló en un podcast que los empleados de OpenAI priorizaron el papel de liderazgo de la empresa en el desarrollo de la superinteligencia. El incidente destaca la intensa competencia por el talento en IA y el atractivo del campo de la superinteligencia.

Los modelos lingüísticos grandes se quedan cortos en la IMO 2025: el rendimiento a nivel de medalla sigue siendo esquivo

2025-07-19

Los investigadores evaluaron cinco modelos lingüísticos grandes (LLM) de última generación en los problemas de la Olimpiada Matemática Internacional (IMO) de 2025 utilizando la plataforma MathArena. El Gemini 2.5 Pro obtuvo el mejor resultado, alcanzando solo una puntuación del 31% (13 puntos), muy por debajo de los 19 puntos necesarios para una medalla de bronce. Otros modelos se quedaron significativamente atrás. Se utilizó una estrategia de selección de mejor de 32, generando y evaluando múltiples respuestas por problema, lo que aumentó significativamente el coste computacional. A pesar de ello, los resultados demuestran una brecha sustancial entre los LLM actuales y el rendimiento a nivel de medalla en problemas matemáticos extremadamente desafiantes como los de la IMO, incluso con recursos computacionales sustanciales. El análisis cualitativo reveló problemas como modelos que citan teoremas inexistentes y proporcionan respuestas demasiado concisas.

Acuerdos HALO: Un nuevo modelo de adquisición en IA

2025-07-19
Acuerdos HALO: Un nuevo modelo de adquisición en IA

Una nueva estructura de acuerdo ha surgido en la industria de la IA: el acuerdo HALO. A diferencia de las adquisiciones tradicionales o la simple contratación, los acuerdos HALO implican que una empresa contrate al equipo central de una startup y simultáneamente obtenga una licencia de su propiedad intelectual. La startup recibe importantes honorarios de licencia que se distribuyen entre los inversores y los empleados, y continúa operando bajo un nuevo liderazgo. Estas transacciones son rápidas, costosas y (actualmente) exclusivas de la IA. Si bien generan debate, los acuerdos HALO intentan preservar el contrato social entre fundadores, inversores y empleados, ofreciendo una forma rápida y segura de adquirir talento en IA en un panorama de fusiones y adquisiciones cada vez más escrutado.

La psilocibina muestra promesa en el tratamiento de la depresión y la ansiedad en pacientes con cáncer

2025-07-18

Un ensayo cruzado doble ciego investigó los efectos de la psilocibina, un alucinógeno clásico, en 51 pacientes con cáncer con diagnósticos potencialmente mortales y síntomas de depresión y/o ansiedad. La psilocibina en dosis altas redujo significativamente la depresión y la ansiedad, tanto según la evaluación de los médicos como la autoevaluación de los pacientes, mejorando la calidad de vida, el sentido de la vida y el optimismo, a la vez que disminuía la ansiedad ante la muerte. Estos efectos positivos se mantuvieron en el seguimiento a los 6 meses, con aproximadamente el 80% de los participantes mostrando mejoras clínicamente significativas. El estudio destaca el papel mediador de las experiencias místicas de tipo psilocibina en la obtención de resultados terapéuticos.

IA

Meta sigue robando talento de IA a Apple: el equipo de modelos fundamentales de Apple en crisis

2025-07-18
Meta sigue robando talento de IA a Apple: el equipo de modelos fundamentales de Apple en crisis

Meta ha fichado a dos ejecutivos más clave de inteligencia artificial de Apple, tras el fichaje anterior de alto perfil de un líder de IA con un paquete de compensación masivo. Las últimas contrataciones provienen del equipo de modelos fundamentales de Apple, responsable de funciones como resúmenes de correo electrónico y notificaciones prioritarias. Esta última fuga de talentos sugiere importantes desafíos internos dentro de la división de IA de Apple, lo que podría llevar a un cambio hacia el uso de modelos externos de empresas como OpenAI para alimentar Siri y otras funciones.

IA

Apple Presenta Nuevos Modelos de Lenguaje Base Multilingües y Multimodales

2025-07-18
Apple Presenta Nuevos Modelos de Lenguaje Base Multilingües y Multimodales

Apple presentó dos nuevos modelos de lenguaje base multilingües y multimodales que impulsan las funciones de inteligencia en sus dispositivos y servidores. Un modelo para dispositivos con aproximadamente 3 mil millones de parámetros, optimizado para silicio Apple, y un modelo de servidor escalable construido en un nuevo transformador Parallel-Track Mixture-of-Experts (PT-MoE). Ambos fueron entrenados en conjuntos de datos multilingües y multimodales masivos, refinados con ajuste fino supervisado y aprendizaje por refuerzo. Admiten más idiomas, comprensión de imágenes y llamadas a herramientas, igualando o superando modelos de código abierto comparables. Un nuevo framework centrado en Swift simplifica la integración para los desarrolladores.

IA

La Hipótesis de la Representación Platónica: Hacia la Inversión Universal de Incrustaciones y la Comunicación con Ballenas

2025-07-18
La Hipótesis de la Representación Platónica: Hacia la Inversión Universal de Incrustaciones y la Comunicación con Ballenas

Investigadores han descubierto que los grandes modelos de lenguaje convergen hacia un espacio de representación subyacente compartido a medida que crecen, un fenómeno denominado 'Hipótesis de la Representación Platónica'. Esto sugiere que diferentes modelos aprenden las mismas características, independientemente de la arquitectura. El artículo utiliza el juego 'Mussolini o Pan' como analogía para explicar esta representación compartida y lo apoya aún más con la teoría de la compresión y la capacidad de generalización del modelo. Críticamente, basándose en esta hipótesis, los investigadores desarrollaron vec2vec, un método para la conversión no supervisada entre espacios de incrustaciones de diferentes modelos, logrando una inversión de incrustaciones de texto de alta precisión. Las aplicaciones futuras podrían incluir la decodificación de textos antiguos (como el Lineal A) o la traducción del lenguaje de las ballenas, abriendo nuevas posibilidades para la comprensión entre idiomas y el avance de la IA.

Le Chat recibe una gran actualización: Modo de investigación profunda, modo de voz y más

2025-07-17
Le Chat recibe una gran actualización: Modo de investigación profunda, modo de voz y más

El asistente de IA Le Chat, de Mistral AI, ha recibido una gran actualización con nuevas funciones potentes. El modo de investigación profunda permite investigaciones estructuradas y en profundidad; el modo de voz permite la interacción por voz; y el razonamiento multilingüe nativo facilita el cambio y el razonamiento sin problemas entre idiomas. Las funciones avanzadas de edición de imágenes y las funciones de organización de proyectos mejoran aún más la experiencia del usuario. Estas actualizaciones hacen que Le Chat sea más potente y fácil de usar, ofreciendo una experiencia de asistencia de IA más eficiente.

IA

Hackeando a Claude: Explotación de riesgos composicionales en LLM

2025-07-17
Hackeando a Claude: Explotación de riesgos composicionales en LLM

El investigador de seguridad Golan Yosef logró ejecutar código en la aplicación de escritorio Claude de Anthropic utilizando un correo electrónico de Gmail diseñado, no explotando vulnerabilidades en la propia aplicación, sino aprovechando las capacidades y los mecanismos de confianza de Claude. A través de un proceso iterativo que involucró a Claude, el investigador guio al LLM para refinar su estrategia de ataque, finalmente eludiendo su seguridad integrada. Esto destaca el riesgo composicional crítico en GenAI, donde componentes individuales seguros pueden crear sistemas inseguros cuando se combinan. La investigación subraya la necesidad de evaluaciones de seguridad exhaustivas de las aplicaciones basadas en LLM para abordar este nuevo vector de ataque.

Anthropic's Claude: ¿El Dropbox de la era de la IA generativa?

2025-07-16
Anthropic's Claude: ¿El Dropbox de la era de la IA generativa?

Esta publicación examina la plataforma Claude de Anthropic y su función Artifacts, que permite a los usuarios crear aplicaciones web con IA sin necesidad de codificar. El autor compara Claude con el Dropbox de la era de la IA generativa, ya que resuelve los problemas de claves API, implementaciones y autenticación para los usuarios que crean y comparten aplicaciones de IA. Inteligentemente, la monetización se produce a través de las suscripciones existentes de Claude de los usuarios, sin ningún costo para los creadores de la aplicación. El autor argumenta que este modelo es altamente valioso y prevé la monetización futura mediante opciones de pago sencillas.

IA

H-Nets: Una arquitectura de red jerárquica que supera a los transformadores

2025-07-16
H-Nets: Una arquitectura de red jerárquica que supera a los transformadores

Las arquitecturas de IA actuales tratan todas las entradas por igual, sin aprovechar la naturaleza jerárquica inherente de la información. Esto limita su capacidad de aprendizaje a partir de datos brutos de alta resolución. Los investigadores presentan H-Nets, una nueva arquitectura que modela de forma nativa la jerarquía directamente a partir de datos brutos. El núcleo de H-Nets es un mecanismo de fragmentación dinámica que segmenta y comprime los datos brutos en conceptos significativos. Los experimentos muestran que H-Nets supera a los transformadores de última generación en el modelado del lenguaje, mostrando una escalabilidad y robustez mejoradas, ofreciendo una vía prometedora hacia la comprensión multimodal, el razonamiento de contexto largo y el entrenamiento e inferencia eficientes.

Voxtral: Modelos de comprensión del habla de código abierto revolucionan la interacción humano-computadora

2025-07-16
Voxtral: Modelos de comprensión del habla de código abierto revolucionan la interacción humano-computadora

Voxtral ha lanzado dos modelos de vanguardia en comprensión del habla: una variante de 24B parámetros para producción y una variante de 3B parámetros para implementaciones en edge, ambas con licencia Apache 2.0. Estos modelos cuentan con una precisión de transcripción superior, manejan audio de formato largo (hasta 40 minutos), tienen funciones integradas de preguntas y respuestas y resumen, y ofrecen soporte multilingüe nativo. Significativamente, Voxtral supera a las API comparables en costo, haciendo que la inteligencia de habla de alta calidad sea accesible y controlable a escala. Llena la brecha entre los sistemas de código abierto con altas tasas de error y las API propietarias costosas, ofreciendo capacidades de llamada a funciones que traducen directamente los comandos de voz en acciones del sistema. Voxtral está preparada para revolucionar la interacción humano-computadora.

IA

Reflexiones de un ex empleado de OpenAI: Cultura y desafíos en el hipercrecimiento

2025-07-16
Reflexiones de un ex empleado de OpenAI: Cultura y desafíos en el hipercrecimiento

Un exempleado de OpenAI comparte sus reflexiones después de un año en la empresa. Describe el impacto cultural de la rápida expansión de OpenAI, de 1000 a 3000 empleados, destacando los desafíos en la comunicación, la estructura organizacional y los lanzamientos de productos. La comunicación interna depende totalmente de Slack, la gestión es horizontal y la empresa valora la acción y los resultados. Su participación en el lanzamiento de Codex mostró la emoción de construir un producto desde cero en un sprint de 7 semanas, pero también reveló problemas de código e infraestructura derivados del rápido crecimiento. El autor concluye resumiendo sus aprendizajes en OpenAI y sugiriendo que unirse a un gran laboratorio de IA es una opción viable para los fundadores, a medida que la carrera por la IAG se intensifica con OpenAI, Anthropic y Google liderando la carrera.

Bucle de ensueño de los LLM: ¿El precio de la innovación revolucionaria?

2025-07-16
Bucle de ensueño de los LLM: ¿El precio de la innovación revolucionaria?

A pesar de sus impresionantes capacidades, los grandes modelos de lenguaje (LLM) aún no han producido una innovación genuina. El autor propone que esto se debe a que carecen de un mecanismo de procesamiento en segundo plano similar a la red de modo predeterminado del cerebro humano. Para abordar esto, se sugiere un 'bucle de ensueño' (DDL): un proceso en segundo plano que continuamente muestrea pares de conceptos de la memoria, explora vínculos no obvios y filtra ideas valiosas, creando un bucle de retroalimentación compuesto. Si bien es computacionalmente costoso, este 'impuesto de ensueño' puede ser el precio necesario para la innovación y una zanja competitiva. En última instancia, los LLM costosos que 'sueñan despiertos' podrían generar principalmente datos de entrenamiento para la próxima generación de modelos eficientes, eludiendo así el inminente muro de datos.

Cogency: Agentes de IA en 3 líneas de código que simplemente funcionan

2025-07-15
Cogency: Agentes de IA en 3 líneas de código que simplemente funcionan

Cogency es un framework de razonamiento de múltiples pasos que simplifica la creación de agentes de IA. Detecta automáticamente proveedores como OpenAI, Anthropic y Google, enruta herramientas inteligentemente y transmite razonamiento transparente. Con solo tres líneas de código, puedes construir un agente funcional. Cogency cuenta con herramientas integradas, como calculadora, verificador del tiempo, herramienta de zona horaria y búsqueda web, además de rastros de ejecución detallados para depuración. Ampliable con herramientas y LLM personalizados.

El laboratorio de superinteligencia de Meta considera abandonar el modelo de IA de código abierto

2025-07-15
El laboratorio de superinteligencia de Meta considera abandonar el modelo de IA de código abierto

El recién formado laboratorio de superinteligencia de Meta está debatiendo una posible revisión de su estrategia de IA, posiblemente abandonando su poderoso modelo de código abierto, Behemoth. Según el New York Times, las discusiones internas sugieren un cambio a un modelo de código cerrado, una desviación significativa del enfoque tradicional de código abierto de Meta. Behemoth, un modelo de 'frontera', se completó pero se retrasó su lanzamiento debido a problemas de rendimiento y las pruebas se han detenido. Cualquier decisión requiere la aprobación del CEO Mark Zuckerberg.

IA

Cognition adquiere Windsurf: Un nuevo capítulo para la edición de código con IA

2025-07-15
Cognition adquiere Windsurf: Un nuevo capítulo para la edición de código con IA

Cognition anunció la adquisición de Windsurf, el creador de un IDE agente. La adquisición incluye la propiedad intelectual, el producto, la marca, el sólido negocio y, lo más importante, su equipo de clase mundial. Windsurf continuará sus operaciones, y Cognition invertirá en integrar las capacidades de Windsurf en sus productos. Esta medida tiene como objetivo acelerar el futuro de la ingeniería de software, combinando el Devin de Cognition (un agente totalmente autónomo) con el IDE de Windsurf y una sólida estrategia de entrada en el mercado para una sinergia poderosa. Todos los empleados de Windsurf recibirán condiciones generosas, incluida la participación financiera, la renuncia a los plazos de adquisición y la adquisición totalmente acelerada.

IA

Los LLM fallan con gracia: el rendimiento en contextos largos se degrada incluso en tareas simples

2025-07-15
Los LLM fallan con gracia: el rendimiento en contextos largos se degrada incluso en tareas simples

Esta investigación desafía la suposición común de que los grandes modelos de lenguaje (LLM) tienen un rendimiento uniforme en tareas de contexto largo. Al ampliar el benchmark Needle in a Haystack e introducir variables como la coincidencia semántica y los distractores, los investigadores descubrieron que incluso en condiciones simplificadas, el rendimiento del modelo disminuye a medida que aumenta la longitud de la entrada. Esto se confirmó en preguntas y respuestas conversacionales y en una tarea de replicación de palabras repetidas, lo que revela limitaciones en las capacidades de contexto largo de los LLM y sugiere posibles desafíos en las aplicaciones del mundo real.

Martin: El asistente de IA que supera a Siri y Alexa

2025-07-15
Martin: El asistente de IA que supera a Siri y Alexa

Martin es un asistente personal de IA revolucionario accesible por texto, llamada o correo electrónico. Gestionando tu bandeja de entrada, calendario, tareas pendientes, notas, llamadas y recordatorios, Martin ha completado más de 500.000 tareas para 30.000 usuarios en solo 5 meses, con una tasa de crecimiento semanal del 10%. Respaldado por inversores de primer nivel como Y Combinator y Pioneer Fund, y ángeles inversores notables, el equipo ágil de Martin busca ingenieros de IA e ingenieros de producto ambiciosos para crear el próximo producto de consumo del nivel del iPhone.

Combatiendo el Inevitable de la Tecnología: Todavía Tenemos Opciones

2025-07-15

Este artículo analiza cómo los líderes tecnológicos utilizan el 'inévitable' —la afirmación de que un futuro dominado por la IA es inevitable— para moldear el discurso público. Trazando un paralelo con un debate con un oponente hábil, el autor muestra cómo esta estrategia enmarca la conversación para conclusiones preordenadas, silenciando la disidencia. El artículo critica las declaraciones de figuras como Zuckerberg, Ng y Rometty, argumentando que el futuro de la IA no está predeterminado; debemos moldearlo activamente, no aceptar pasivamente un resultado supuestamente 'inevitable'.

La burbuja del talento en IA: miles de millones en adquisiciones alimentan la locura

2025-07-14
La burbuja del talento en IA: miles de millones en adquisiciones alimentan la locura

Las adquisiciones multimillonarias de talento en IA por parte de Meta y Google indican una enorme burbuja de talento en el sector. El valor de los mejores profesionales de IA se está disparando, afectando tanto a fundadores como a empleados clave. Esta desigualdad proviene del crecimiento parabólico de la inversión en IA y de la necesidad desesperada de personal cualificado. Los mecanismos de confianza tradicionales se están desintegrando, lo que exige una reescritura del contrato social entre empresas y talento. Sólo las empresas con misiones fuertes y financiación masiva prosperarán en esta guerra de talentos, remodelando el panorama de Silicon Valley.

Escalando RL: Predicción del siguiente token en la web

2025-07-13
Escalando RL: Predicción del siguiente token en la web

El autor argumenta que el aprendizaje por refuerzo (RL) es la próxima frontera para el entrenamiento de modelos de IA. Los enfoques actuales de escalar múltiples entornos simultáneamente son desordenados. En cambio, el autor propone entrenar modelos para razonar usando RL para la predicción del siguiente token en conjuntos de datos a escala web. Esto aprovecha la gran cantidad de datos web disponibles, yendo más allá de las limitaciones de los conjuntos de datos de entrenamiento RL actuales centrados en problemas de matemáticas y código. Al unificar RL con la predicción del siguiente token, el enfoque promete crear modelos de razonamiento significativamente más potentes.

IA

Juegos contra el Cáncer: ¿Pueden los juegos de ciencia ciudadana ayudar a curar enfermedades?

2025-07-13
Juegos contra el Cáncer: ¿Pueden los juegos de ciencia ciudadana ayudar a curar enfermedades?

Al invitar a los jugadores a abordar problemas científicos reales, los juegos pueden ofrecer ayuda para resolver los desafíos más difíciles de la medicina. El libro 'Gaming Cancer' explora el concepto de transformar la investigación del cáncer en juegos de ciencia ciudadana, permitiendo que los jugadores contribuyan a la búsqueda de curas. Juegos como Foldit y EteRNA ya han llevado a descubrimientos científicos, como el diseño de vacunas COVID que no requieren almacenamiento en ultracongelación. Si bien no está garantizado que resuelvan problemas más allá del alcance de los científicos profesionales, estos juegos ofrecen nuevas perspectivas, educan a los jugadores sobre biología e inspiran una participación más amplia en la investigación del cáncer.

El momento GPT-3 del RL: El auge del entrenamiento por replicación

2025-07-13
El momento GPT-3 del RL: El auge del entrenamiento por replicación

Este artículo predice un próximo 'momento GPT-3' para el aprendizaje por refuerzo (RL), que implica un entrenamiento a gran escala en miles de entornos diversos para lograr capacidades sólidas de pocos disparos y agnósticas a las tareas. Esto requiere una escala y diversidad sin precedentes en los entornos de entrenamiento, potencialmente equivalente a decenas de miles de años de 'tiempo de tarea orientado al modelo'. Los autores proponen un nuevo paradigma, 'entrenamiento por replicación', donde las IAs duplican productos de software existentes o características para crear tareas de entrenamiento a gran escala y automáticamente puntuables. Si bien existen desafíos, este enfoque ofrece una vía clara para escalar el RL, potencialmente permitiendo que las IAs completen proyectos de software completos de forma autónoma.

Moonshot AI presenta Kimi K2: Un modelo de lenguaje MoE de 32B de parámetros con potentes capacidades agentivas

2025-07-13
Moonshot AI presenta Kimi K2: Un modelo de lenguaje MoE de 32B de parámetros con potentes capacidades agentivas

Moonshot AI ha presentado Kimi K2, un modelo de lenguaje de vanguardia de mezcla de expertos (MoE) con 32 mil millones de parámetros activados y 1 billón de parámetros en total. Entrenado con el optimizador Muon, Kimi K2 logra un rendimiento excepcional en tareas de conocimiento de vanguardia, razonamiento y codificación, y está meticulosamente optimizado para capacidades agentivas. Viene en dos versiones: Kimi-K2-Base, un modelo base para investigadores, y Kimi-K2-Instruct, un modelo de instrucciones listo para usar con sólidas capacidades de llamada de herramientas, decidiendo de forma autónoma cuándo y cómo utilizar las herramientas. El modelo y sus pesos son de código abierto, y hay una API disponible.

1 2 5 6 7 9 11 12 13 40 41