Aprendizaje por Refuerzo: Impulsando el Auge de la IA Agéntica en 2025

2025-06-28
Aprendizaje por Refuerzo: Impulsando el Auge de la IA Agéntica en 2025

Los primeros intentos de agentes de IA como BabyAGI y AutoGPT en 2023, aunque inicialmente publicitados, fracasaron debido a la dificultad de los grandes modelos de lenguaje (LLMs) para manejar el razonamiento de múltiples pasos. Sin embargo, a mediados de 2024, se produjo un cambio. Los avances en el aprendizaje por refuerzo permitieron una nueva generación de agentes de IA capaces de completar consistentemente tareas complejas de múltiples pasos, ejemplificadas por herramientas de generación de código como Bolt.new y el Claude 3.5 Sonnet de Anthropic. El aprendizaje por refuerzo, mediante el entrenamiento de prueba y error, supera el problema de los errores compuestos inherente al aprendizaje por imitación, permitiendo que los modelos se mantengan robustos incluso con datos no vistos. Técnicas como RLHF de OpenAI e IA Constitucional de Anthropic automatizan la retroalimentación, aumentando aún más la eficiencia del aprendizaje por refuerzo. El modelo R1 de DeepSeek mostró el notable potencial de los modelos que "autoenseñan" el razonamiento mediante el aprendizaje por refuerzo. En resumen, los avances en el aprendizaje por refuerzo son el motor principal detrás del auge de la IA agéntica en 2025.

Leer más
IA

El modelo Llama 3.1 de Meta memoriza partes significativas de libros con derechos de autor

2025-06-15
El modelo Llama 3.1 de Meta memoriza partes significativas de libros con derechos de autor

Una nueva investigación revela que el modelo de lenguaje grande Llama 3.1 70B de Meta memorizó sorprendentemente grandes partes de libros con derechos de autor, memorizando el 42% de Harry Potter y la Piedra Filosofal. Esto es significativamente mayor que su predecesor, Llama 1 65B, lo que genera serias preocupaciones sobre derechos de autor. Los investigadores evaluaron de manera eficiente la 'memorización' del modelo calculando la probabilidad de generar secuencias de texto específicas, en lugar de generar un gran volumen de texto. Este hallazgo podría impactar significativamente los litigios sobre derechos de autor contra Meta y podría llevar a los tribunales a reconsiderar los límites del uso justo en el entrenamiento de modelos de IA. Si bien el modelo memorizó menos libros oscuros, la memorización excesiva de libros populares destaca los desafíos de los modelos de lenguaje grandes con respecto a las cuestiones de derechos de autor.

Leer más
IA

El bombo de la IA en la ciencia: la desilusión de un físico

2025-05-20
El bombo de la IA en la ciencia: la desilusión de un físico

Nick McGreivy, un físico con doctorado de Princeton, comparte su experiencia aplicando IA a la investigación en física. Inicialmente optimista sobre el potencial de la IA para acelerar la investigación, descubrió que los métodos de IA tenían un rendimiento muy inferior al anunciado. Muchos artículos exageraron las ventajas de la IA, con problemas como la fuga de datos siendo frecuentes. Argumenta que el rápido crecimiento de la IA en la ciencia se debe más a los beneficios para los científicos (salarios más altos, prestigio) que a mejoras genuinas en la eficiencia de la investigación. Pide métodos de evaluación de IA más rigurosos y advierte contra los sesgos optimistas en la investigación de IA.

Leer más

Análisis de Accidentes de Vehículos Autónomos de Waymo: ¿Son los Humanos los Verdaderos Culpables?

2025-03-26
Análisis de Accidentes de Vehículos Autónomos de Waymo: ¿Son los Humanos los Verdaderos Culpables?

Este artículo analiza 38 accidentes graves que involucran vehículos autónomos de Waymo entre julio de 2024 y febrero de 2025. Sorprendentemente, la gran mayoría de estos accidentes no fueron causados por los propios vehículos de Waymo, sino por otros vehículos que conducían imprudentemente, como exceso de velocidad e ignorar las señales de tráfico. Los datos de Waymo muestran que sus vehículos autónomos tienen una tasa de accidentes mucho menor que los conductores humanos. Incluso si todos los accidentes se atribuyeran a Waymo, su historial de seguridad sigue siendo significativamente mejor que el de los conductores humanos. En comparación con la conducción humana, Waymo ha logrado avances significativos en la reducción de accidentes, especialmente aquellos que resultan en lesiones.

Leer más
IA