arXivLabs: Proyectos experimentales con colaboradores de la comunidad

2025-02-03
arXivLabs: Proyectos experimentales con colaboradores de la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo trabaja con socios que los respeten. ¿Tiene una idea para un proyecto que agregue valor a la comunidad de arXiv? Obtenga más información sobre arXivLabs.

Leer más
Desarrollo

arXivLabs: Proyectos experimentales con colaboradores de la comunidad

2025-02-02
arXivLabs: Proyectos experimentales con colaboradores de la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo trabaja con socios que los respeten. ¿Tienes una idea para un proyecto que agregue valor a la comunidad de arXiv? Obtén más información sobre arXivLabs.

Leer más

arXivLabs: Experimentando con funciones impulsadas por la comunidad

2025-02-01
arXivLabs: Experimentando con funciones impulsadas por la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en el sitio web. Los participantes, tanto individuos como organizaciones, abrazan los valores de arXiv de apertura, comunidad, excelencia y privacidad de datos del usuario. arXiv está comprometido con estos valores y solo se asocia con aquellos que los comparten. ¿Tiene una idea para un proyecto que beneficiará a la comunidad de arXiv? Obtenga más información sobre arXivLabs.

Leer más

arXivLabs: Colaboraciones comunitarias en funciones de arXiv

2025-02-01
arXivLabs: Colaboraciones comunitarias en funciones de arXiv

arXivLabs es un marco experimental que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en el sitio web. Los participantes deben cumplir con los valores de arXiv de apertura, comunidad, excelencia y privacidad de los datos del usuario. ¿Tienes alguna idea para mejorar la comunidad de arXiv? Obtén más información sobre arXivLabs.

Leer más
Desarrollo

arXivLabs: Proyectos experimentales con colaboradores de la comunidad

2025-02-01
arXivLabs: Proyectos experimentales con colaboradores de la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de datos de usuario. arXiv está comprometido con estos valores y solo trabaja con socios que los respeten. ¿Tiene una idea para un proyecto que agregará valor a la comunidad de arXiv? Obtenga más información sobre arXivLabs.

Leer más
Tecnología

arXivLabs: Desarrollo de funciones de arXiv impulsado por la comunidad

2025-02-01
arXivLabs: Desarrollo de funciones de arXiv impulsado por la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en el sitio web. Los participantes, tanto individuos como organizaciones, abrazan los valores de arXiv de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo se asocia con aquellos que los comparten. ¿Tiene alguna idea para mejorar la comunidad de arXiv? Obtenga más información sobre arXivLabs.

Leer más
Desarrollo

arXivLabs: Proyectos experimentales con colaboradores de la comunidad

2025-01-31
arXivLabs: Proyectos experimentales con colaboradores de la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo trabaja con socios que los respetan. ¿Tiene alguna idea para un proyecto que agregue valor a la comunidad de arXiv? Obtenga más información sobre arXivLabs.

Leer más

arXivLabs: Experimentación con Colaboración Comunitaria

2025-01-31
arXivLabs: Experimentación con Colaboración Comunitaria

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones directamente en el sitio web de arXiv. Las personas y organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de datos de usuario. arXiv está comprometido con estos valores y solo trabaja con socios que los respeten. ¿Tienes una idea para un proyecto que agregará valor a la comunidad de arXiv? Aprende más sobre arXivLabs.

Leer más
Desarrollo plataforma abierta

arXivLabs: Proyectos experimentales con colaboradores de la comunidad

2025-01-31
arXivLabs: Proyectos experimentales con colaboradores de la comunidad

arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo trabaja con socios que los respetan. ¿Tienes una idea para un proyecto que agregará valor a la comunidad de arXiv? Obtén más información sobre arXivLabs.

Leer más

Un Algoritmo de Transformada de Fourier Cuántica Más Rápido

2025-01-27
Un Algoritmo de Transformada de Fourier Cuántica Más Rápido

Ronit Shah presenta un algoritmo mejorado para la Transformada de Fourier Cuántica (QFT). Tradicionalmente, la QFT aproximada requiere Θ(n log n) puertas, y la QFT exacta requiere Θ(n²) puertas. El nuevo algoritmo, aprovechando una novedosa partición recursiva de qubits, reduce el costo de la QFT aproximada a Θ(n(log log n)²) puertas y de la QFT exacta a Θ(n(log n)²) puertas. Este avance promete ganancias significativas de eficiencia en la computación cuántica.

Leer más

DeepSeek-R1: Incentivando la capacidad de razonamiento en LLM mediante el aprendizaje por refuerzo

2025-01-25
DeepSeek-R1: Incentivando la capacidad de razonamiento en LLM mediante el aprendizaje por refuerzo

DeepSeek-AI presenta sus modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, un modelo entrenado mediante aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar, demuestra notables capacidades de razonamiento. A través del RL, DeepSeek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e intrigantes. Sin embargo, se enfrenta a desafíos como la mala legibilidad y la mezcla de idiomas. Para abordar estos problemas y mejorar aún más el rendimiento del razonamiento, presentamos DeepSeek-R1, que incorpora entrenamiento multietapa y datos de inicio en frío antes del RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1-1217 en tareas de razonamiento. Para apoyar a la comunidad de investigación, publicamos como código abierto DeepSeek-R1-Zero, DeepSeek-R1 y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1 basados en Qwen y Llama.

Leer más

Fundamentos de los Modelos de Lenguaje Grandes: Un Nuevo Libro que Descifra Conceptos Clave

2025-01-23
Fundamentos de los Modelos de Lenguaje Grandes: Un Nuevo Libro que Descifra Conceptos Clave

Se ha publicado un nuevo libro, "Fundamentos de los Modelos de Lenguaje Grandes". En lugar de intentar una cobertura completa de las tecnologías de vanguardia, profundiza en los conceptos fundamentales básicos de los modelos de lenguaje grandes. Estructurado en cuatro capítulos que abarcan el preentrenamiento, los modelos generativos, las técnicas de indicaciones y los métodos de alineación, el libro está dirigido a estudiantes universitarios, profesionales y profesionales del procesamiento del lenguaje natural y campos relacionados. Sirve como una referencia valiosa para cualquier persona interesada en LLM.

Leer más
IA

Compresión sin pérdidas de IDs de vectores mejora la búsqueda aproximada de vecinos más cercanos

2025-01-23
Compresión sin pérdidas de IDs de vectores mejora la búsqueda aproximada de vecinos más cercanos

Los investigadores presentan un esquema de compresión sin pérdidas para los IDs de vectores para abordar el alto costo de almacenamiento de los índices en la búsqueda aproximada de vecinos más cercanos. Aprovechando el hecho de que el orden de los IDs es irrelevante en muchas estructuras de índice y utilizando sistemas numéricos asimétricos o árboles wavelet, el método logra hasta 7 veces de compresión de los IDs de vectores sin afectar la precisión ni el tiempo de ejecución de la búsqueda. Esto se traduce en una reducción del 30% en el tamaño del índice para conjuntos de datos a escala de miles de millones. Además, el enfoque también puede comprimir sin pérdidas los códigos de vectores cuantizados, explotando las suboptimalidades en el algoritmo de cuantización original.

Leer más

FLAME: Un modelo de lenguaje pequeño para fórmulas de hojas de cálculo

2025-01-22
FLAME: Un modelo de lenguaje pequeño para fórmulas de hojas de cálculo

Los modelos de lenguaje grandes son costosos de entrenar e implementar para ayudar en la creación de fórmulas de Excel. Este artículo presenta FLAME, un modelo basado en Transformer entrenado exclusivamente en fórmulas de Excel. Con solo 60 millones de parámetros y una fracción de los datos de entrenamiento utilizados por modelos más grandes, FLAME logra un rendimiento competitivo o incluso superior en tareas de reparación, finalización y recuperación de fórmulas en comparación con modelos como Codex y CodeT5. Esto se atribuye a sus nuevos objetivos de preentrenamiento y tokenizador específico de Excel.

Leer más
Desarrollo

Atención por Producto Tensorial: Todo lo que necesitas

2025-01-22
Atención por Producto Tensorial: Todo lo que necesitas

Escalar los modelos de lenguaje para manejar secuencias de entrada más largas normalmente requiere grandes cachés de clave-valor (KV), lo que resulta en una sobrecarga de memoria sustancial durante la inferencia. Este artículo propone la Atención por Producto Tensorial (TPA), un nuevo mecanismo de atención que utiliza descomposiciones tensoriales para representar consultas, claves y valores de forma compacta, reduciendo significativamente el tamaño del caché KV durante la inferencia. Al factorizar estas representaciones en componentes de bajo rango contextuales (factorización contextual) e integrándolas perfectamente con RoPE, la TPA mejora la calidad del modelo manteniendo la eficiencia de memoria. Basándose en la TPA, los autores introducen el Transformador de Atención por Producto Tensorial (T6), una nueva arquitectura de modelo para el modelado de secuencias. Una evaluación empírica extensa en tareas de modelado de lenguaje demuestra que T6 supera los modelos base estándar del Transformer, incluyendo MHA, MQA, GQA y MLA, en varias métricas, incluyendo la perplejidad y una variedad de conocidos benchmarks de evaluación. Notablemente, la eficiencia de memoria de la TPA permite el procesamiento de secuencias significativamente más largas bajo restricciones de recursos fijas, abordando un desafío crítico de escalabilidad en los modelos de lenguaje modernos. El código está disponible.

Leer más

ELIZA Reanimada: El Primer Chatbot del Mundo Restaurado

2025-01-18
ELIZA Reanimada: El Primer Chatbot del Mundo Restaurado

Investigadores han resucitado con éxito a ELIZA, considerada el primer chatbot del mundo, en un CTSS restaurado, el primer sistema de tiempo compartido del mundo (emulado en un IBM 7094). Utilizando impresiones originales, código MAD-SLIP y documentos de soporte encontrados en los archivos del Profesor Weizenbaum en el MIT, recrearon a ELIZA y su famoso script DOCTOR. Todo el proyecto es de código abierto, permitiendo a cualquiera con un sistema operativo similar a Unix ejecutar este innovador chatbot.

Leer más
IA

Desentrañando las Matemáticas detrás del Juego de Palabras Diario del NYT 'Waffle'

2025-01-17
Desentrañando las Matemáticas detrás del Juego de Palabras Diario del NYT 'Waffle'

Un artículo en arXiv explora las matemáticas detrás del juego de palabras diario del New York Times, Waffle. El autor S.P. Glasby profundiza en las propiedades combinatorias del juego, explicando por qué algunos rompecabezas son fáciles mientras que otros son excepcionalmente difíciles. La investigación revela que una solución perfecta requiere precisamente 11 órbitas entre los 21 cuadrados, con al menos una órbita de longitud 1. Esto proporciona un marco matemático para comprender y potencialmente mejorar rompecabezas de palabras similares.

Leer más
Juegos

Titans: Una Nueva Arquitectura Neural para Aprender a Memorizar en el Momento de la Prueba

2025-01-16
Titans: Una Nueva Arquitectura Neural para Aprender a Memorizar en el Momento de la Prueba

Los investigadores presentan Titans, una nueva arquitectura neural que combina un módulo de memoria neural con un mecanismo de atención para memorizar eficazmente el contexto histórico a largo plazo. A diferencia de los modelos recurrentes tradicionales y los mecanismos de atención, Titans demuestra una eficiencia y precisión superiores en el manejo de secuencias largas, especialmente en tareas de "encontrar una aguja en un pajar". Supera a los Transformers y a los modelos recurrentes lineales recientes en varias tareas, incluyendo el modelado del lenguaje, el razonamiento de sentido común, la genómica y las series temporales, y escala a ventanas de contexto superiores a 2 millones de tokens.

Leer más

Hacia el Razonamiento del Sistema 2 en LLMs: Aprendiendo a Pensar con Meta Chain-of-Thought

2025-01-10
Hacia el Razonamiento del Sistema 2 en LLMs: Aprendiendo a Pensar con Meta Chain-of-Thought

Los investigadores proponen un nuevo marco, Meta Chain-of-Thought (Meta-CoT), que extiende el Chain-of-Thought (CoT) tradicional modelando explícitamente el razonamiento subyacente necesario para llegar a un CoT determinado. Meta-CoT utiliza supervisión de proceso, generación de datos sintéticos y algoritmos de búsqueda. El artículo describe un pipeline de entrenamiento que incorpora el ajuste de instrucciones con rastros de búsqueda linealizados y aprendizaje por refuerzo. Este trabajo proporciona una hoja de ruta para habilitar Meta-CoT en LLMs, prometiendo un razonamiento más poderoso y similar al humano en IA.

Leer más

Desafiando el Teorema CAP: Una Conjetura de Progreso Parcial bajo Asincronía

2025-01-08
Desafiando el Teorema CAP: Una Conjetura de Progreso Parcial bajo Asincronía

Un nuevo artículo desafía el conocido teorema CAP. Los autores conjeturan que el progreso parcial es posible bajo particiones de red, lo que significa que el sistema puede permanecer responsivo a un subconjunto de clientes y lograr un rendimiento distinto de cero durante las fallas. Presentan el diseño de su protocolo de consenso CASSANDRA, permitiendo que las réplicas particionadas ordenen las solicitudes de los clientes, ofreciendo potencialmente una vía para sistemas que son consistentes y disponibles en cierta medida, incluso durante las particiones. Esta investigación ofrece un enfoque novedoso para construir sistemas distribuidos más robustos.

Leer más
Desarrollo

Una década de revisión: Introducción a la detección de anomalías en series temporales

2025-01-06
Una década de revisión: Introducción a la detección de anomalías en series temporales

Los avances en la tecnología de recopilación de datos y la explosión de datos en tiempo real destacan la necesidad crucial del análisis de series temporales. Este artículo proporciona una revisión de una década sobre la detección de anomalías en series temporales, que abarca métodos desde las medidas estadísticas tradicionales hasta el auge de los algoritmos de aprendizaje automático. Presenta una taxonomía centrada en los procesos para categorizar y resumir las soluciones existentes, ofreciendo un meta-análisis de la literatura y destacando las tendencias generales en el campo. Esta revisión exhaustiva sirve como un recurso valioso para los investigadores.

Leer más

Científicos descifran el código del Cacio e Pepe perfecto

2025-01-04
Científicos descifran el código del Cacio e Pepe perfecto

Un equipo de científicos se adentró en el arte culinario, específicamente en el clásico plato italiano Cacio e Pepe, para desentrañar los secretos detrás de su textura cremosa perfecta. Su investigación reveló la concentración de almidón como el factor clave que influye en la estabilidad de la salsa. Los niveles de almidón por debajo del 1% (en relación con la masa del queso) conducen a la formación de grumos, un fenómeno denominado "Fase Mozzarella", que resulta en una salsa separada y desagradable. El estudio también exploró el impacto de las proporciones de queso y agua a un nivel fijo de almidón, observando una temperatura crítica de solución inferior y desarrollando un modelo de energía libre mínimo efectivo para explicarlo. Finalmente, presentaron una receta optimizada científicamente, garantizando un Cacio e Pepe impecable de forma consistente.

Leer más

Reproduciendo el OpenAI o1: Una hoja de ruta desde la perspectiva del aprendizaje por refuerzo

2025-01-03
Reproduciendo el OpenAI o1: Una hoja de ruta desde la perspectiva del aprendizaje por refuerzo

Un nuevo artículo explora la forma de reproducir el enigmático modelo o1 de OpenAI, desde la perspectiva del aprendizaje por refuerzo. Los investigadores argumentan que la poderosa capacidad de razonamiento del o1 no se debe a una sola técnica, sino a la sinergia de cuatro componentes clave: inicialización de la política, diseño de recompensa, búsqueda y aprendizaje. La inicialización de la política dota al modelo de un razonamiento similar al humano; el diseño de recompensa proporciona señales densas y efectivas que guían la búsqueda y el aprendizaje; la búsqueda genera soluciones de alta calidad durante el entrenamiento y las pruebas; el aprendizaje utiliza los datos de la búsqueda para mejorar la política, logrando finalmente un mejor rendimiento. Este artículo ofrece información valiosa para comprender y reproducir el o1, proporcionando nuevas vías para el desarrollo de LLM.

Leer más

4,5 Millones de Estrellas Falsas en GitHub: Una Competición de Popularidad Siniestra

2025-01-02
4,5 Millones de Estrellas Falsas en GitHub: Una Competición de Popularidad Siniestra

Un nuevo estudio revela 4,5 millones de estrellas falsas sospechosas en GitHub, utilizadas principalmente para promover repositorios de malware de corta duración disfrazados de software pirata, trucos de juegos o bots de criptomonedas. Los investigadores desarrollaron StarScout, una herramienta para detectar comportamientos anómalos de estrellas. El estudio muestra un aumento rápido en la actividad de estrellas falsas desde 2024. Si bien los usuarios que dan estrellas falsas no difieren significativamente de los usuarios promedio en términos de características de perfil, sus patrones de actividad son altamente anormales. Aunque ofrecen beneficios promocionales a corto plazo, las estrellas falsas terminan convirtiéndose en una carga a largo plazo. Esta investigación tiene implicaciones significativas para los moderadores de plataformas, los profesionales de código abierto y los investigadores de seguridad de la cadena de suministro.

Leer más
Tecnología

TinyStories: ¿Pueden los modelos de lenguaje pequeños aún hablar inglés coherente?

2025-01-02
TinyStories: ¿Pueden los modelos de lenguaje pequeños aún hablar inglés coherente?

Los investigadores presentan TinyStories, un conjunto de datos sintético de historias cortas que utilizan solo vocabulario comprendido por niños típicos de 3 a 4 años, generado por GPT-3.5 y GPT-4. Demuestran que los modelos de lenguaje entrenados en TinyStories, incluso aquellos con menos de 10 millones de parámetros y arquitecturas simples (un solo bloque transformador), pueden generar historias de varios párrafos fluidas y coherentes, mostrando una gramática y un razonamiento sorprendentemente buenos. Esto desafía la idea de que la generación de texto coherente requiere modelos masivos y arquitecturas complejas, e introduce un nuevo paradigma de evaluación que utiliza GPT-4 para calificar las historias generadas como un profesor humano, superando las limitaciones de los puntos de referencia estándar.

Leer más

Ingeniería de Activación: Manipulación de Rasgos de Personalidad en LLMs

2024-12-31
Ingeniería de Activación: Manipulación de Rasgos de Personalidad en LLMs

Un artículo en arXiv explora un nuevo método para identificar y manipular rasgos de personalidad en modelos de lenguaje grandes (LLMs) utilizando 'ingeniería de activación'. Inspirado en investigaciones previas sobre el rechazo y la dirección de LLMs, los investigadores proponen una técnica para ajustar las direcciones de activación vinculadas a los rasgos de personalidad, permitiendo el ajuste fino dinámico de la personalidad del LLM. Este trabajo contribuye a una mejor comprensión de la interpretabilidad del LLM, al mismo tiempo que plantea consideraciones éticas cruciales.

Leer más

Más Allá del Promedio de Gradientes en la Optimización Paralela: Robustez Mejorada a través del Filtrado de Acuerdo de Gradientes

2024-12-30
Más Allá del Promedio de Gradientes en la Optimización Paralela: Robustez Mejorada a través del Filtrado de Acuerdo de Gradientes

Este artículo presenta el Filtrado de Acuerdo de Gradientes (FAG), un nuevo método para mejorar el promedio de gradientes en la optimización del aprendizaje profundo distribuido. Los métodos tradicionales promedian los gradientes de micro-batches para calcular un gradiente de macro-batch, pero esto puede llevar a gradientes ortogonales o negativamente correlacionados en las etapas posteriores del entrenamiento, lo que resulta en sobreajuste. El FAG reduce la varianza del gradiente calculando la distancia del coseno entre micro-gradientes y filtrando las actualizaciones conflictivas antes del promedio. Los experimentos en benchmarks de clasificación de imágenes como CIFAR-100 y CIFAR-100N-Fine muestran que el FAG mejora significativamente la precisión de validación, incluso con tamaños de micro-batch más pequeños, logrando hasta un 18,2% de mejora con respecto a los enfoques tradicionales, al tiempo que reduce el costo computacional.

Leer más

Evaluación de la capacidad de generación de código de los LLMs: Presentación de MultiCodeBench

2024-12-30
Evaluación de la capacidad de generación de código de los LLMs: Presentación de MultiCodeBench

Los asistentes de programación basados en IA y alimentados por modelos de lenguaje extenso (LLM) de código se han vuelto cada vez más comunes, aumentando significativamente la productividad de los desarrolladores. Sin embargo, los benchmarks existentes de generación de código se centran principalmente en escenarios de propósito general, dejando el rendimiento de los LLMs en dominios de aplicación específicos en gran medida desconocido. Este artículo presenta MultiCodeBench, un nuevo benchmark compuesto por 2400 tareas de programación en 12 dominios populares de desarrollo de software y 15 lenguajes de programación. Los experimentos en once LLMs principales revelan su rendimiento en la generación de código en diferentes dominios, ofreciendo información práctica para los desarrolladores en la selección de LLMs y orientación para los desarrolladores de modelos para mejorar las capacidades de generación de código específicas del dominio.

Leer más

Avance en la evaluación de los modelos de lenguaje grandes para la generación de pruebas unitarias

2024-12-30
Avance en la evaluación de los modelos de lenguaje grandes para la generación de pruebas unitarias

Los investigadores realizaron una evaluación exhaustiva del potencial de los Modelos de Lenguaje Grandes (LLMs) en la automatización de la generación de pruebas unitarias. Compararon el rendimiento de cinco LLMs de código abierto frente al GPT-4 de código cerrado y la herramienta tradicional Evosuite en 17 proyectos Java, investigando el impacto de diferentes estrategias de solicitud. El estudio descubrió que los LLMs de código abierto ofrecen ventajas en la privacidad de los datos y superan en rendimiento en ciertas tareas, pero también reveló limitaciones en la generación de pruebas unitarias basada en LLM. Esta investigación proporciona información valiosa para orientar las futuras aplicaciones de los LLMs en esta área.

Leer más
Desarrollo Pruebas Unitarias

Confusión de Identidad en LLM: Emerge una Crisis de Confianza

2024-12-30
Confusión de Identidad en LLM: Emerge una Crisis de Confianza

Un estudio reciente revela la extendida "confusión de identidad" en los Modelos de Lenguaje Grandes (LLM). Los investigadores descubrieron que más del 25% de los LLM muestran una tergiversación de sus orígenes o identidades, principalmente debido a alucinaciones del modelo en lugar de replicación o reutilización. Esta confusión de identidad erosiona significativamente la confianza del usuario, especialmente en tareas críticas como la educación y el uso profesional, superando el impacto negativo de los errores lógicos. Los hallazgos destacan los riesgos sistémicos que plantea la confusión de identidad de LLM y piden una mayor atención a la fiabilidad y la confianza del modelo.

Leer más
1 2 3 4 5 6 7 9