Category: IA

OpenAI utiliza r/ChangeMyView de Reddit para evaluar la persuasión de la IA

2025-02-02
OpenAI utiliza r/ChangeMyView de Reddit para evaluar la persuasión de la IA

OpenAI utilizó el subreddit r/ChangeMyView de Reddit para evaluar las habilidades persuasivas de su nuevo modelo de razonamiento, el o3-mini. El subreddit, donde los usuarios publican opiniones y participan en debates, proporcionó un conjunto de datos único para evaluar qué tan bien las respuestas generadas por la IA podían cambiar de opinión. Si bien el o3-mini no superó significativamente a los modelos anteriores, como el o1 o el GPT-4o, todos demostraron fuertes habilidades persuasivas, clasificándose en el percentil 80-90 superior del rendimiento humano. OpenAI enfatiza que el objetivo no es crear una IA hiperpersuasiva, sino mitigar los riesgos asociados con modelos excesivamente persuasivos. El benchmark destaca el desafío continuo de obtener conjuntos de datos de alta calidad para el desarrollo de modelos de IA.

DeepSeek-R1: El auge de la IA en China y la victoria del código abierto

2025-02-02
DeepSeek-R1: El auge de la IA en China y la victoria del código abierto

La empresa china DeepSeek lanzó DeepSeek-R1, un modelo de lenguaje grande comparable a los modelos de OpenAI, bajo una licencia MIT de peso abierto. Esto provocó una liquidación en el mercado de valores de empresas tecnológicas estadounidenses, destacando varias tendencias importantes: China se está acercando rápidamente a EE. UU. en IA generativa; los modelos de peso abierto están convirtiendo la capa de modelos básicos en una mercancía, creando oportunidades para los desarrolladores de aplicaciones; el escalamiento no es el único camino para el progreso de la IA, con innovaciones algorítmicas que reducen rápidamente los costos de entrenamiento. DeepSeek-R1 señala un cambio en el panorama de la IA, ofreciendo nuevas oportunidades para el desarrollo de aplicaciones de IA.

Límites de los LLMs: El acertijo de Einstein expone las limitaciones de la IA basada en transformadores

2025-02-02
Límites de los LLMs: El acertijo de Einstein expone las limitaciones de la IA basada en transformadores

Investigadores han descubierto limitaciones fundamentales en la capacidad de los actuales modelos de lenguaje grandes (LLMs) basados en transformadores para resolver tareas de razonamiento composicional. Experimentos con el acertijo lógico de Einstein y la multiplicación de varios dígitos revelaron deficiencias significativas, incluso después de un ajuste fino extenso. Estos hallazgos desafían la idoneidad de la arquitectura de transformadores para el aprendizaje universal y están impulsando investigaciones sobre enfoques alternativos, como datos de entrenamiento mejorados y prompts de razonamiento en cadena, para mejorar las capacidades de razonamiento del LLM.

AMA de OpenAI: ¿Admitiendo el retraso, abrazando el código abierto?

2025-02-01
AMA de OpenAI: ¿Admitiendo el retraso, abrazando el código abierto?

En un amplio AMA en Reddit, el CEO de OpenAI, Sam Altman, admitió que la ventaja de OpenAI en IA se está reduciendo, en parte debido a competidores como DeepSeek. Insinuó un cambio hacia una estrategia más de código abierto, potencialmente lanzando modelos más antiguos. OpenAI también está lidiando con la presión de Washington, una ronda de financiación masiva y la necesidad de construir una infraestructura de centros de datos sustancial. Para competir, la empresa planea aumentar la transparencia del modelo, revelando el proceso de razonamiento detrás de sus resultados. Altman expresó optimismo sobre el potencial para el rápido avance de la IA, pero reconoció el riesgo de uso indebido, particularmente en el desarrollo de armas.

Guía de construcción de un equipo de inferencia de IA Deepseek en bare-metal

2025-02-01

Esta guía detalla la construcción de un entorno de inferencia de IA Deepseek en bare-metal. Usando un sistema AMD EPYC Rome con 512 GB de RAM, alcanza de 4,25 a 3,5 TPS. La guía cubre la selección de hardware, la instalación del sistema operativo (Ubuntu 24.04), la configuración de Ollama y OpenWebUI, la configuración de la BIOS e instrucciones de línea de comandos. Aunque complejo, es gratificante para los entusiastas de la tecnología.

Códec de Audio Interpretable Disperso: Hacia una Representación de Audio Más Intuitiva

2025-02-01

Este artículo presenta un prototipo de codificador de audio que tiene como objetivo codificar el audio como un conjunto disperso de eventos y sus tiempos de ocurrencia. Utiliza supuestos rudimentarios basados en la física para modelar el ataque y la resonancia física tanto del instrumento como de la sala, con la esperanza de fomentar una representación dispersa, parsimoniosa y fácil de interpretar. El modelo funciona eliminando iterativamente energía del espectrograma de entrada, produciendo vectores de eventos y vectores one-hot que representan el tiempo de ocurrencia. El decodificador utiliza estos vectores para reconstruir el audio. Los resultados experimentales muestran la capacidad del modelo para descomponer el audio, pero hay margen de mejora, como mejorar la calidad de la reconstrucción y reducir los eventos redundantes.

DeepSeek R1 lleva la IA al borde en PCs Copilot+

2025-02-01
DeepSeek R1 lleva la IA al borde en PCs Copilot+

Microsoft está llevando el poder de la IA al borde con DeepSeek R1, ahora optimizado para PCs Copilot+ con procesadores Qualcomm Snapdragon e Intel Core Ultra. Aprovechando la Unidad de Procesamiento Neural (NPU), DeepSeek R1 se ejecuta de manera eficiente en el dispositivo, permitiendo tiempos de respuesta más rápidos y un menor consumo de energía. Los desarrolladores pueden integrar fácilmente el modelo usando el AI Toolkit para crear aplicaciones de IA nativas. Este lanzamiento inicial de DeepSeek R1-Distill-Qwen-1.5B, junto con las variantes de 7B y 14B que llegarán pronto, demuestra el potencial de la IA de borde para la inferencia eficiente y los servicios en ejecución continua.

La Conquista de Tareas de $200 por la IA: Un Informe de Progreso

2025-02-01
La Conquista de Tareas de $200 por la IA: Un Informe de Progreso

El autor relata haber encargado un diseño de mascota de $200 en 2013, ilustrando el tipo de tareas que ahora son realizables por la IA. La IA sobresale en tareas transaccionales con resultados bien definidos, como diseño de logotipos, transcripción y traducción, que antes requerían habilidades especializadas. Sin embargo, las tareas más complejas que exigen experiencia matizada y juicio, como el diseño de paisajes, permanecen más allá de las capacidades actuales de la IA. Aunque el progreso de la IA es impresionante, su impacto económico en la resolución de tareas pagas todavía está en sus etapas iniciales.

OpenAI lanza o3-mini: Un LLM potente y económico

2025-02-01

OpenAI ha lanzado el nuevo modelo de lenguaje o3-mini, que destaca en el benchmark de programación competitiva Codeforces, superando significativamente a GPT-4o y o1. Si bien no es superior en todos los aspectos, su bajo precio (1,10 $/millón de tokens de entrada, 4,40 $/millón de tokens de salida) y su límite de salida de tokens excepcionalmente alto (100.000 tokens) lo hacen altamente competitivo. OpenAI planea integrarlo en ChatGPT para búsqueda web y resumen, y el soporte ya está disponible en LLM 0.21, pero actualmente está limitado a usuarios de nivel 3 (al menos 100 $ gastados en la API). o3-mini ofrece a los desarrolladores una opción de LLM potente y económica.

IA

Generación de Música con IA: Conveniencia vs. Creatividad

2025-01-31
Generación de Música con IA: Conveniencia vs. Creatividad

El éxito de la empresa de música con IA, Suno, suscita reflexiones sobre el papel de la IA en la creación artística. El autor, profesor de la Universidad de Stanford, cuestiona la afirmación de Suno de que la IA puede resolver fácilmente las partes tediosas de la creación musical, argumentando que los desafíos y dificultades inherentes al proceso creativo constituyen el significado y el valor del arte. Utilizando sus propias experiencias y prácticas de enseñanza como ejemplos, ilustra la importancia del proceso creativo y hace un llamamiento a la preservación de la creación activa humana en la era de la IA, evitando una cultura puramente consumista.

Diagramas de Tensores Simplifican la Manipulación de Tensores: Presentamos la Biblioteca Tensorgrad

2025-01-31

La manipulación de tensores de alta dimensionalidad puede ser confusa. Un nuevo libro, "The Tensor Cookbook", simplifica este proceso usando diagramas de tensores. Los diagramas de tensores son más intuitivos que la notación de índice tradicional (einsum), revelando fácilmente patrones y simetrías, evitando la molestia de la vectorización y los productos de Kronecker, simplificando el cálculo matricial y representando sin esfuerzo funciones y broadcasting. La biblioteca Python asociada, Tensorgrad, usa diagramas de tensores para la manipulación y diferenciación de tensores simbólicos, haciendo los cálculos complejos más fáciles de entender.

IA

OpenAI lanza un modelo de razonamiento más barato y rápido: o3-mini

2025-01-31
OpenAI lanza un modelo de razonamiento más barato y rápido: o3-mini

OpenAI presentó o3-mini, un nuevo modelo de razonamiento de IA en su familia 'o'. Si bien tiene una capacidad comparable a la familia o1, o3-mini ofrece velocidades más rápidas y costos más bajos. Optimizado para problemas STEM, particularmente programación, matemáticas y ciencias, está disponible en ChatGPT con configuraciones de 'esfuerzo de razonamiento' ajustables que equilibran velocidad y precisión. Los usuarios de pago tienen acceso ilimitado, mientras que los usuarios gratuitos tienen un límite de consultas. También accesible a través de la API de OpenAI para desarrolladores seleccionados, o3-mini ofrece precios competitivos y una seguridad mejorada, aunque no supera al modelo R1 de DeepSeek en todos los puntos de referencia.

IA

DeepSeek: Un Caballo Negro de la IA China Emerge

2025-01-31
DeepSeek: Un Caballo Negro de la IA China Emerge

DeepSeek, una empresa de IA incubada por el fondo de cobertura chino High-Flyer, ha tomado al mundo por sorpresa con sus modelos altamente eficientes, DeepSeek V3 y R1. DeepSeek V3 cuenta con bajos costos de entrenamiento (significativamente más altos que los 6 millones de dólares publicados) y un rendimiento potente, junto con la innovadora tecnología Multi-head Latent Attention, lo que resulta en ventajas sustanciales en los costos de inferencia. Si bien el éxito de DeepSeek está ligado a su gran inversión en GPU (alrededor de 50.000 GPU Hopper) y al énfasis en el talento, su estrategia de bajo precio plantea dudas sobre la sostenibilidad de los costos. El Google Gemini Flash 2.0 Thinking también representa un desafío para la posición de liderazgo de DeepSeek. El auge de DeepSeek refleja el crecimiento de la fuerza de la tecnología de IA china, al tiempo que impulsa la reflexión sobre la competencia tecnológica internacional y los controles de exportación.

Entrena tu propio modelo de imagen de IA en menos de 2 horas

2025-01-31
Entrena tu propio modelo de imagen de IA en menos de 2 horas

El autor entrenó un modelo de imagen de IA personalizado en menos de dos horas para generar imágenes de sí mismo en varios estilos, como una versión de Superman. Esto se logró utilizando el modelo Flux y la técnica de entrenamiento LoRA, aprovechando el servicio en la nube de GPU fácil de usar de Replicate y herramientas preconstruidas. Con solo unas pocas fotos personales y Hugging Face para el almacenamiento del modelo, el proceso fue sorprendentemente sencillo. Los resultados variaron, pero fueron lo suficientemente divertidos como para justificar el bajo costo (menos de $10).

IA

RamaLama: Ejecutando modelos de IA tan fácilmente como Docker

2025-01-31
RamaLama: Ejecutando modelos de IA tan fácilmente como Docker

RamaLama es una herramienta de línea de comandos diseñada para simplificar la ejecución y administración local de modelos de IA. Aprovechando la tecnología de contenedores OCI, detecta automáticamente el soporte de GPU y extrae modelos de registros como Hugging Face y Ollama. Los usuarios evitan configuraciones de sistema complejas; comandos simples ejecutan chatbots o APIs REST. RamaLama admite Podman y Docker, ofreciendo alias de modelos convenientes para una mayor facilidad de uso.

DeepSeek R1: Modelo de código abierto desafía a OpenAI en razonamiento complejo

2025-01-31
DeepSeek R1: Modelo de código abierto desafía a OpenAI en razonamiento complejo

DeepSeek R1, un modelo de código abierto, está desafiando a los modelos de OpenAI en tareas de razonamiento complejo. Utilizando la Optimización de Política Relativa de Grupo (GRPO) y un enfoque de entrenamiento multietapa centrado en el aprendizaje por refuerzo, los creadores lanzaron no solo el modelo, sino también un artículo de investigación que detalla su desarrollo. El artículo describe un "momento Eureka" durante el entrenamiento donde el modelo aprendió a asignar más tiempo de pensamiento a un problema revaluando su enfoque inicial, sin retroalimentación humana. Esta entrada de blog recrea este "momento Eureka" usando GRPO y el juego Countdown, entrenando un modelo abierto para aprender habilidades de autoverificación y búsqueda. Se proporciona un código interactivo de Jupyter Notebook, junto con scripts e instrucciones para el entrenamiento distribuido en nodos multi-GPU o clústeres SLURM, para facilitar el aprendizaje de GRPO y TRL.

IA

El Gremio de Autores Lanza la Certificación 'Autoría Humana' para Combatir los Libros Generados por IA

2025-01-31
El Gremio de Autores Lanza la Certificación 'Autoría Humana' para Combatir los Libros Generados por IA

En respuesta al aumento de libros generados por IA en plataformas como Amazon, el Gremio de Autores ha lanzado una certificación 'Autoría Humana'. Esta iniciativa tiene como objetivo brindar a los lectores claridad sobre la autoría, distinguiendo los libros escritos por humanos del contenido generado por IA. Actualmente limitada a los miembros del Gremio y a los libros de un solo autor, la certificación se ampliará para incluir a los no miembros y a los autores múltiples en el futuro. Si bien se permiten pequeñas ayudas de IA, como las revisiones gramaticales, la certificación enfatiza que la expresión literaria principal debe ser de origen humano. El Gremio enmarca esto no como una postura antitecnología, sino como un impulso a la transparencia y al reconocimiento del elemento humano único en la narración.

IA
1 2 33 34 35 36 37 38 39 41 Next →