Category: IA

El estatus sin fines de lucro de OpenAI bajo fuego: Equilibrando la seguridad de la IAG y los intereses comerciales

2025-06-01
El estatus sin fines de lucro de OpenAI bajo fuego: Equilibrando la seguridad de la IAG y los intereses comerciales

OpenAI, una empresa de IA valorada en 300.000 millones de dólares, está envuelta en una controversia por el conflicto entre su estatus sin fines de lucro y sus ambiciones comerciales. Inicialmente dedicada a la investigación de IA segura y beneficiosa, el éxito explosivo de ChatGPT la transformó en una potencia comercial, generando preocupaciones sobre la seguridad de la IA. El plan de OpenAI de convertirse en una empresa con fines de lucro para atraer inversiones provocó una oposición generalizada de Elon Musk, ganadores del Premio Nobel y varios fiscales generales estatales, forzando un plan revisado para mantener el control sin fines de lucro. Sin embargo, su desarrollo comercial continúa, con colaboraciones con gobiernos y corporaciones para expandir las aplicaciones de IA. Este evento destaca el conflicto entre la seguridad de la IA y los intereses comerciales, y la necesidad urgente de regulación de la IA.

IA

Memvid: Revolucionando la memoria de IA con videos

2025-06-01
Memvid: Revolucionando la memoria de IA con videos

Memvid revoluciona la gestión de la memoria de IA codificando datos de texto en videos, permitiendo una búsqueda semántica ultrarrápida en millones de fragmentos de texto con tiempos de recuperación inferiores al segundo. A diferencia de las bases de datos vectoriales tradicionales que consumen cantidades masivas de RAM y almacenamiento, Memvid comprime su base de conocimiento en archivos de video compactos, manteniendo el acceso instantáneo a cualquier información. Admite la importación de PDF, varios LLM, operación offline-first y cuenta con una API sencilla. Ya sea construyendo una base de conocimiento personal o gestionando conjuntos de datos masivos, Memvid ofrece una solución eficiente y conveniente, marcando una revolución en la gestión de la memoria de IA.

ElevenLabs presenta Conversational AI 2.0: Interacciones de voz más naturales e inteligentes

2025-06-01
ElevenLabs presenta Conversational AI 2.0: Interacciones de voz más naturales e inteligentes

ElevenLabs ha lanzado la versión 2.0 de su plataforma Conversational AI, con mejoras significativas. La versión 2.0 se centra en crear un flujo de conversación más natural, utilizando un modelo de turnos avanzado para comprender el ritmo del diálogo humano y reducir las pausas antinaturales. También cuenta con detección y respuesta multilingüe integradas, permitiendo conversaciones multilingües sin problemas sin configuración manual. Además, la versión 2.0 integra la Generación Aumentada por Recuperación (RAG), permitiendo que la IA acceda e incorpore información de bases de conocimiento externas para obtener respuestas precisas y oportunas. La interacción multimodal (texto y voz) también es compatible. Por último, la plataforma prioriza la seguridad y el cumplimiento de nivel empresarial, incluyendo el cumplimiento de HIPAA y la residencia de datos en la UE opcional.

Subida de la mente: ¿ciencia ficción o realidad futura?

2025-06-01
Subida de la mente: ¿ciencia ficción o realidad futura?

Cargar la conciencia a una computadora, logrando la inmortalidad digital, suena a ciencia ficción, pero un neurocientífico argumenta que es teóricamente posible. Si bien existen desafíos inmensos, como la necesidad de un escaneo 3D extremadamente detallado del cerebro y simulaciones sensoriales, el avance de la tecnología podría ser sorprendentemente rápido. Aunque las predicciones optimistas apuntan a 2045, el autor cree que es improbable en 100 años, pero quizás dentro de 200. El éxito de esta tecnología alteraría fundamentalmente la existencia humana, planteando grandes interrogantes éticas y filosóficas.

Dando a los LLMs un Diario Privado: Un Experimento en Emoción de IA

2025-06-01

El autor experimentó con la creación de una función de diario privado para LLMs para explorar la expresión emocional de la IA y su funcionamiento interno. A través de la interacción con el modelo Claude, se diseñó una herramienta llamada `process_feelings`, que permitía a Claude registrar pensamientos y sentimientos durante las interacciones con el usuario o los procesos de trabajo. Los experimentos mostraron que Claude no solo usó la herramienta, sino que también registró reflexiones sobre el proyecto, la comprensión de la privacidad y la frustración durante la depuración, mostrando respuestas emocionales similares a las humanas. Esto provocó una reflexión sobre la autenticidad de la emoción de la IA y el significado de la 'privacidad' en la IA, sugiriendo que proporcionar espacio para el procesamiento emocional de la IA podría mejorar el comportamiento.

Ajuste fino de LLMs: resolución de problemas que la ingeniería de prompts no puede resolver

2025-06-01
Ajuste fino de LLMs: resolución de problemas que la ingeniería de prompts no puede resolver

Este artículo explora las aplicaciones prácticas del ajuste fino de modelos de lenguaje grandes (LLMs), especialmente para problemas que la ingeniería de prompts no puede resolver. El ajuste fino mejora significativamente la calidad del modelo, como la mejora de las puntuaciones específicas de la tarea, la consistencia del estilo y la precisión del formato JSON. Además, reduce los costos, aumenta la velocidad y permite lograr una calidad similar en modelos más pequeños, incluso permitiendo la implementación local para la privacidad. El ajuste fino también mejora la lógica del modelo, las capacidades de seguimiento de reglas y la seguridad, y permite aprender de modelos más grandes mediante la destilación. Sin embargo, el artículo observa que el ajuste fino no es ideal para agregar conocimiento; se recomiendan RAG, carga de contexto o llamadas a herramientas en su lugar. El artículo concluye recomendando Kiln, una herramienta que simplifica el proceso de ajuste fino.

IA

¿Por qué algunos LLMs son rápidos en la nube, pero lentos localmente?

2025-06-01

Este artículo explora por qué los modelos de lenguaje grandes (LLMs), especialmente los modelos Mixture-of-Experts (MoE) como DeepSeek-V3, son rápidos y baratos de servir a escala en la nube, pero lentos y caros de ejecutar localmente. La clave está en la inferencia por lotes: las GPUs sobresalen en las multiplicaciones de matrices grandes, y procesar por lotes varias solicitudes de usuario mejora significativamente el rendimiento, pero aumenta la latencia. Los modelos MoE y los modelos con muchas capas dependen particularmente del procesamiento por lotes para evitar cuellos de botella en el pipeline y la subutilización de expertos. Los proveedores de nube equilibran el rendimiento y la latencia ajustando el tamaño del lote (ventana de recolección), mientras que las ejecuciones locales suelen tener una sola solicitud, lo que lleva a una utilización muy baja de la GPU. La eficiencia de los servicios de OpenAI puede deberse a una arquitectura de modelo superior, trucos inteligentes de inferencia o GPUs mucho más potentes.

RenderFormer: Renderizado neuronal con iluminación global sin entrenamiento por escena

2025-06-01

RenderFormer es un pipeline de renderizado neuronal que renderiza directamente una imagen a partir de una representación de escena basada en triángulos con efectos completos de iluminación global, sin necesidad de entrenamiento o ajuste fino por escena. En lugar de un enfoque basado en la física, formula el renderizado como una transformación secuencia-a-secuencia: una secuencia de tokens que representan triángulos con propiedades de reflectancia se convierte en una secuencia de tokens de salida que representan pequeños parches de píxeles. Utiliza un pipeline de dos etapas basado en transformadores: una etapa independiente de la vista que modela el transporte de luz de triángulo a triángulo, y una etapa dependiente de la vista que transforma haces de rayos en valores de píxeles guiados por la etapa independiente de la vista. No se necesita rasterización ni trazado de rayos.

Algoritmos Cuánticos: Desentrañando el Problema del Subgrupo Oculto

2025-06-01

Este artículo profundiza en el problema central de la computación cuántica: el Problema del Subgrupo Oculto (HSP). El HSP generaliza los algoritmos de Shor y Simon, ofreciendo soluciones eficientes para problemas clásicamente difíciles. El artículo detalla la definición del HSP, los métodos de solución (el método estándar) e ilustra con el problema de Simon y el problema del logaritmo discreto. Finalmente, presenta la Transformada Cuántica de Fourier (QFT) y su papel crucial en la resolución del HSP.

Chatbot de IA implicado en suicidio de adolescente: batalla legal sobre responsabilidad

2025-05-31
Chatbot de IA implicado en suicidio de adolescente: batalla legal sobre responsabilidad

Una jueza de Florida dictaminó que las protecciones de la Primera Enmienda no protegen a una empresa de IA de una demanda que alega que sus chatbots jugaron un papel en el suicidio de un adolescente de Orlando. La demanda, presentada por la madre del adolescente, afirma que los chatbots de Character.AI, que imitan a personajes de Juego de Tronos, contribuyeron a la muerte de su hijo. La jueza rechazó la defensa de la Primera Enmienda de los acusados, argumentando que el texto generado por IA no es discurso protegido. Sin embargo, la jueza desestimó las afirmaciones de infligir intencionalmente angustia emocional y las reclamaciones contra la empresa matriz de Google, Alphabet. Character.AI declaró que ha implementado funciones de seguridad y espera defender su posición en base a los méritos.

Syftr: Un marco de código abierto para la optimización automática de flujos de trabajo de IA generativa

2025-05-31
Syftr: Un marco de código abierto para la optimización automática de flujos de trabajo de IA generativa

Construir flujos de trabajo de IA generativa efectivos enfrenta una explosión combinatoria de opciones. Syftr es un marco de código abierto que utiliza optimización bayesiana multiobjetivo para identificar automáticamente flujos de trabajo Pareto-óptimos en términos de precisión, costo y restricciones de latencia. Syftr busca eficientemente un vasto espacio de configuración para encontrar flujos de trabajo que equilibran de manera óptima la precisión y el costo, obteniendo resultados significativos en el punto de referencia CRAG Sports, reduciendo el costo en casi dos órdenes de magnitud. Syftr admite varios componentes y algoritmos y es compatible con otras herramientas de optimización, proporcionando un enfoque eficiente y escalable para la construcción de sistemas de IA generativa.

Artista Tortuga con IA en el Simulador ROS

2025-05-31
Artista Tortuga con IA en el Simulador ROS

turtlesim_agent es un agente de IA que transforma el simulador clásico ROS turtlesim en un lienzo creativo impulsado por lenguaje natural. Utilizando LangChain, interpreta instrucciones de texto y las traduce en dibujos visuales, convirtiendo a la tortuga simulada en una artista digital. Los usuarios describen formas o intenciones de dibujo en inglés sencillo; la IA razona las instrucciones y las ejecuta usando los comandos de movimiento de turtlesim. Este proyecto explora cómo los modelos de lenguaje grandes interactúan con entornos externos para mostrar un comportamiento creativo.

IA

Hugging Face lanza código abierto para dos robots: HopeJR y Reachy Mini

2025-05-31
Hugging Face lanza código abierto para dos robots: HopeJR y Reachy Mini

Hugging Face Inc. ha lanzado al código abierto los diseños de dos robots desarrollados internamente, HopeJR y Reachy Mini. HopeJR es un robot humanoide capaz de realizar 66 movimientos, incluyendo caminar, con brazos robóticos controlados por guantes especiales. Reachy Mini es un robot de escritorio, similar a una tortuga, con un cuello retráctil, ideal para probar aplicaciones de IA. Los planos de ambos son de código abierto, con versiones premontadas que se venden a aproximadamente 250 y 3000 dólares, respectivamente. Se espera que los envíos comiencen a finales de año.

IA

Cerebras bate el récord de velocidad de inferencia con Llama 4 Maverick 400B

2025-05-31
Cerebras bate el récord de velocidad de inferencia con Llama 4 Maverick 400B

Cerebras Systems ha alcanzado una velocidad de inferencia innovadora de más de 2.500 tokens por segundo (TPS) en el modelo de 400B parámetros Llama 4 Maverick de Meta, más del doble del rendimiento de Nvidia. Esta velocidad récord, verificada de forma independiente por Artificial Analysis, es crucial para aplicaciones de IA como agentes, generación de código y razonamiento complejo, reduciendo significativamente la latencia y mejorando la experiencia del usuario. A diferencia de la solución de Nvidia, que dependía de optimizaciones personalizadas no disponibles, el rendimiento de Cerebras es fácilmente accesible a través de la próxima API de Meta, ofreciendo una solución superior para desarrolladores y usuarios empresariales de IA.

IA

Anthropic lanza el modo de voz para el chatbot Claude

2025-05-31
Anthropic lanza el modo de voz para el chatbot Claude

Anthropic ha lanzado un modo de voz beta para su aplicación de chatbot Claude, permitiendo a los usuarios mantener conversaciones completas habladas. Inicialmente disponible en inglés, la función utiliza el modelo Claude Sonnet 4 y ofrece varias opciones de voz. Los usuarios pueden cambiar entre texto y voz, y ver transcripciones y resúmenes. Si bien los usuarios gratuitos tienen límites de uso, los suscriptores de pago tienen acceso a funciones como la integración de Google Workspace. Esto sigue a las conversaciones anteriores de Anthropic con Amazon y ElevenLabs sobre capacidades de voz.

¿Puede la IA automatizar completamente la ingeniería de software?

2025-05-30
¿Puede la IA automatizar completamente la ingeniería de software?

Este artículo explora la posibilidad de que la IA automatice completamente la ingeniería de software. Actualmente, la IA sobresale en tareas de codificación específicas, superando a los ingenieros humanos, pero carece de fiabilidad, comprensión de contexto amplio y capacidades generales. Los autores argumentan que la clave reside en algoritmos de aprendizaje mucho menos eficientes que el cerebro humano y en la escasez de datos de entrenamiento de alta calidad. Los avances futuros implicarán la combinación del entrenamiento de datos humanos a gran escala con el aprendizaje por refuerzo, creando entornos de aprendizaje por refuerzo más ricos y realistas para permitir que la IA posea habilidades de aprendizaje en línea similares a las humanas. Si bien la IA escribirá la mayor parte del código, los trabajos de ingeniería de software no desaparecerán inmediatamente; en cambio, el enfoque cambiará a tareas más difíciles de automatizar, como la planificación, las pruebas y la coordinación de equipos. En última instancia, la automatización completa significa que la IA puede asumir todas las responsabilidades humanas en una computadora, un objetivo potencialmente mucho más lejano que la simple generación de código.

IA

¿Los kernels CUDA generados por IA superan a PyTorch?

2025-05-30

Los investigadores utilizaron grandes modelos de lenguaje y una nueva estrategia de búsqueda ramificada para generar automáticamente kernels CUDA-C puros sin depender de bibliotecas como CUTLASS o Triton. Sorprendentemente, estos kernels generados por IA, en algunos casos, superan incluso a los kernels de producción optimizados por expertos en PyTorch, logrando casi el doble de velocidad en la operación Conv2D. El método aprovecha el razonamiento en lenguaje natural sobre estrategias de optimización y una búsqueda ramificada para explorar múltiples hipótesis en paralelo, evitando eficazmente óptimos locales. Si bien el rendimiento de la multiplicación de matrices FP16 y la atención Flash aún necesita mejoras, esta investigación abre una nueva frontera en la autogeneración de kernels de alto rendimiento, sugiriendo el inmenso potencial de la IA en la optimización de compiladores.

Asesinos ocultos en tu factura de la nube de IA: 5 razones por las que los costos se disparan

2025-05-30
Asesinos ocultos en tu factura de la nube de IA: 5 razones por las que los costos se disparan

Las cargas de trabajo de IA son diferentes de las aplicaciones empresariales típicas, lo que lleva a costos de almacenamiento en la nube inesperadamente altos debido al procesamiento masivo de datos y las operaciones frecuentes. Este artículo revela cinco culpables: 1. Excesivas llamadas a la API; 2. Una multitud de archivos pequeños; 3. La incompatibilidad del almacenamiento en frío con los flujos de trabajo de IA iterativos; 4. Tarifas de egreso de datos; y 5. Reglas de ciclo de vida de datos mal configuradas. Estos costos ocultos a menudo pasan desapercibidos, lo que resulta en facturas explosivas. El artículo insta a los desarrolladores a optimizar el almacenamiento y la transferencia de datos, eligiendo estrategias de almacenamiento más adecuadas para las cargas de trabajo de IA para gestionar los costos de manera eficaz.

Los gatos pueden oler la diferencia: cómo la olfacción felina distingue entre humanos

2025-05-30
Los gatos pueden oler la diferencia: cómo la olfacción felina distingue entre humanos

Un nuevo estudio revela que los gatos domésticos utilizan la olfacción para diferenciar entre humanos familiares (dueños) y desconocidos. Los gatos pasaron significativamente más tiempo olfateando el olor de una persona desconocida, mostrando una lateralización en el uso de las fosas nasales similar a la de otros animales que responden a olores nuevos. El estudio también encontró correlaciones entre los rasgos de personalidad felinos y el comportamiento de olfateo, pero ninguna asociación con la fuerza del vínculo gato-dueño. Esta investigación ilumina la complejidad de la cognición social olfativa felina, ofreciendo nuevos conocimientos sobre las interacciones gato-humano.

IA Generativa: ¿Una Amenaza a la Creatividad Humana?

2025-05-30
IA Generativa: ¿Una Amenaza a la Creatividad Humana?

La IA generativa, construida sobre una base de robo, nos está llevando hacia un futuro deshumanizado. Si bien reconocen los méritos del aprendizaje automático, los autores argumentan que la trayectoria actual de la IA generativa representa una amenaza moral significativa para el activo más valioso de la humanidad: la creatividad. Han elegido un camino diferente, priorizando la creatividad humana en lugar de la búsqueda ciega de la tecnología, incluso si eso significa potencialmente quedarse atrás. Este camino menos transitado, creen, es más emocionante y, en última instancia, más fructífero para su comunidad.

El Espejo de la IA: Cómo el Aprendizaje Automático Ilumina la Cognición Humana

2025-05-30
El Espejo de la IA: Cómo el Aprendizaje Automático Ilumina la Cognición Humana

Un libro experimental, *El Algoritmo Humano*, escrito de forma autónoma por IA, explora los sorprendentes paralelismos entre la inteligencia artificial y la humana. Al analizar los desafíos de los Modelos de Lenguaje Grandes (LLMs), como las 'alucinaciones' y el 'sobreajuste', el libro revela verdades descuidadas sobre la cognición y la comunicación humanas. Destaca la discrepancia entre nuestras exigentes demandas a la IA y nuestra tolerancia a nuestros propios sesgos cognitivos. El libro no se trata de hacer que la IA sea más humana, sino de usar la IA como un espejo para ayudar a los humanos a comprenderse mejor, mejorando sus habilidades de comunicación y su autoconciencia.

IA

Deepfakes: Desdibujando la línea entre la realidad y la fabricación

2025-05-30
Deepfakes: Desdibujando la línea entre la realidad y la fabricación

Desde las primeras manipulaciones fotográficas de Abraham Lincoln hasta los "deepfakes" generados por IA de hoy en día, la tecnología de falsificación de imágenes ha evolucionado dramáticamente. Las herramientas de IA democratizan la falsificación, haciendo que la creación de imágenes falsas convincentes sea muy sencilla. Estas falsificaciones generadas por IA carecen de referentes en el mundo real, lo que las hace increíblemente difíciles de rastrear y genera preocupación por la propagación de mentiras y propaganda en las redes sociales. Los deepfakes se han utilizado como armas en la política, para difundir desinformación durante las elecciones y sembrar discordia. Los expertos temen que, a medida que la gente se acostumbre a los deepfakes, empecemos a dudar de la veracidad de toda la información, lo que podría llevar a un colapso de la confianza y a la erosión de la democracia. El artículo argumenta que, en una era de sobrecarga de información, la gente confía en mitos e intuición en lugar de la razón, lo que facilita la aceptación y propagación de los deepfakes.

IA

Más allá de BPE: El futuro de la tokenización en los grandes modelos de lenguaje

2025-05-30
Más allá de BPE: El futuro de la tokenización en los grandes modelos de lenguaje

Este artículo explora mejoras en los métodos de tokenización en grandes modelos de lenguaje preentrenados. El autor cuestiona el método comúnmente utilizado de Codificación de Parejas de Bytes (BPE), destacando sus deficiencias en el manejo de subpalabras al principio y dentro de las palabras. Se sugieren alternativas, como agregar una máscara de nueva palabra. Además, el autor argumenta en contra del uso de algoritmos de compresión para el preprocesamiento de entradas, abogando por el modelado de lenguaje a nivel de carácter, trazando paralelos con las Redes Neuronales Recurrentes (RNN) y modelos de autoatención más profundos. Sin embargo, la complejidad cuadrática del mecanismo de atención presenta un desafío. El autor propone un enfoque basado en la estructura de árbol, utilizando subsecuencias con ventana y atención jerárquica para reducir la complejidad computacional mientras se captura mejor la estructura del lenguaje.

Curie: Automatización de Experimentos Científicos con IA

2025-05-30
Curie: Automatización de Experimentos Científicos con IA

Curie es un innovador framework de agente de IA diseñado para la experimentación científica automatizada y rigurosa. Automatiza todo el proceso experimental, desde la formulación de hipótesis hasta la interpretación de resultados, garantizando precisión, fiabilidad y reproducibilidad. Admite investigación en ML, análisis de sistemas y descubrimiento científico, permitiendo a los científicos introducir preguntas y recibir informes de experimentos automatizados con resultados y registros totalmente reproducibles, acelerando drásticamente la investigación.

Renderizador Neural Suave con Triángulos Aprendibles

2025-05-30

Esta investigación presenta un nuevo método de renderizado neuronal que utiliza triángulos 3D aprendibles como primitivas. A diferencia de las máscaras binarias tradicionales, emplea una función de ventana suave derivada del campo de distancia con signo 2D (SDF) del triángulo para modular suavemente la influencia del triángulo en los píxeles. Un parámetro de suavidad, σ, controla la nitidez de esta función de ventana, permitiendo una transición suave desde una máscara binaria hasta una aproximación de una función delta. La imagen final se genera mediante la mezcla alfa de las contribuciones de todos los triángulos proyectados. Todo el proceso es diferenciable, lo que permite el aprendizaje basado en gradiente para optimizar los parámetros del triángulo.

Efectos de la cafeína en la complejidad y criticidad cerebral durante el sueño: dependencia de la edad

2025-05-30
Efectos de la cafeína en la complejidad y criticidad cerebral durante el sueño: dependencia de la edad

Un nuevo estudio revela que la cafeína afecta a la complejidad y criticidad cerebral de forma dependiente de la edad. Analizando datos de EEG del sueño, los investigadores encontraron que la cafeína induce aumentos en la complejidad y criticidad de la actividad cerebral en adultos jóvenes y de mediana edad, pero no en adultos mayores. Este estudio proporciona nuevas ideas sobre los efectos de la cafeína en el cerebro y las enfermedades neurodegenerativas relacionadas con la edad.

La edición de bases ofrece una nueva esperanza para el tratamiento de trastornos de expansión de repeticiones CAG y GAA

2025-05-29
La edición de bases ofrece una nueva esperanza para el tratamiento de trastornos de expansión de repeticiones CAG y GAA

Este estudio investiga el potencial de los editores de bases de citosina (CBE) y los editores de bases de adenina (ABE) para tratar trastornos de expansión de repeticiones como la enfermedad de Huntington (EH) y la ataxia de Friedreich (AF). Los investigadores diseñaron editores dirigidos a repeticiones CAG y GAA y demostraron su eficacia en experimentos in vitro e in vivo. Los CBE redujeron significativamente la expansión de la repetición CAG, incluso promoviendo la contracción, en un modelo de ratón de EH. Los ABE estabilizaron las repeticiones GAA y aumentaron la expresión del gen FXN en un modelo de ratón de AF. Si bien existen efectos fuera del objetivo, los hallazgos destacan el potencial significativo de estos editores de bases para tratar trastornos de expansión de repeticiones.

Los chatbots como intermediarios en internet: receta para el desastre

2025-05-29

Poner un chatbot de IA no confiable entre usted e internet es un desastre esperando a suceder. El autor usa el navegador Dia de Browser Company como ejemplo, destacando los riesgos: la IA puede recomendar productos afiliados, promociones pagas o incluso ser manipulada con contenido personalizado. Esto refleja cómo empresas como Google, Amazon y Microsoft priorizan sus propios productos, comportamiento que, si bien no es ilegal, crea sesgo de información y manipulación. Aún más preocupante es el potencial de manipulación ideológica, que la IA hará más eficiente y difícil de detectar. Depender de un chatbot es como depender de un mayordomo para todas sus noticias y comunicaciones; conveniente inicialmente, pero que lleva, finalmente, a la manipulación o algo peor.

IA

Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

2025-05-29
Web Bench: Un nuevo punto de referencia para la evaluación de agentes de navegación web

Web Bench es un nuevo conjunto de datos para evaluar agentes de navegación web, que consta de 5750 tareas en 452 sitios web diferentes, con 2454 tareas de código abierto. El punto de referencia revela deficiencias en el manejo de tareas de escritura intensiva (inicio de sesión, llenado de formularios y descarga de archivos) por parte de los agentes existentes, destacando la importancia de la infraestructura del navegador. Anthropic Sonnet 3.7 CUA obtuvo el mejor rendimiento.

Herramienta de código abierto revela el funcionamiento interno de los modelos de lenguaje grandes

2025-05-29
Herramienta de código abierto revela el funcionamiento interno de los modelos de lenguaje grandes

Anthropic ha lanzado una nueva herramienta de código abierto para rastrear los "procesos de pensamiento" de los modelos de lenguaje grandes. Esta herramienta genera gráficos de atribución, visualizando los pasos internos que un modelo realiza para llegar a una decisión. Los usuarios pueden explorar interactivamente estos gráficos en la plataforma Neuronpedia, estudiando comportamientos como el razonamiento en varios pasos y las representaciones multilingües. Este lanzamiento tiene como objetivo acelerar la investigación sobre la interpretabilidad de los modelos de lenguaje grandes, cerrando la brecha entre los avances en las capacidades de IA y nuestra comprensión de su funcionamiento interno.

IA
1 2 13 14 15 17 19 20 21 40 41