La visión pragmática de un científico de datos sénior sobre la IA generativa

2025-05-05
La visión pragmática de un científico de datos sénior sobre la IA generativa

Un científico de datos sénior de BuzzFeed comparte su enfoque pragmático para el uso de modelos de lenguaje grandes (LLM). No ve los LLM como una solución mágica, sino como una herramienta para aumentar la eficiencia, destacando la importancia de la ingeniería de prompts. El artículo detalla su uso exitoso de LLM para tareas como la categorización de datos, el resumen de texto y la generación de código, al mismo tiempo que reconoce sus limitaciones, particularmente en escenarios complejos de ciencia de datos donde la precisión y la eficiencia pueden verse afectadas. Argumenta que los LLM no son una panacea, pero, cuando se usan con prudencia, pueden aumentar significativamente la productividad. La clave está en seleccionar la herramienta adecuada para el trabajo.

Leer más
IA

Más Allá de las Bases de Datos Vectoriales: Procesamiento Eficiente de Incrustaciones de Texto con Parquet y Polars

2025-02-24
Más Allá de las Bases de Datos Vectoriales: Procesamiento Eficiente de Incrustaciones de Texto con Parquet y Polars

Este artículo presenta un método para el procesamiento eficiente de incrustaciones de texto sin depender de bases de datos vectoriales. El autor utiliza archivos Parquet para almacenar datos tabulares que contienen incrustaciones de cartas de Magic: The Gathering y sus metadatos, y aprovecha la biblioteca Polars para la búsqueda rápida de similitudes y el filtrado de datos. La característica de copia cero de Polars y su excelente soporte para datos anidados hacen que este enfoque sea más rápido y eficiente que los métodos tradicionales de CSV o Pickle, manteniendo un alto rendimiento incluso al filtrar el conjunto de datos. El autor compara otros métodos de almacenamiento, como CSV, Pickle y NumPy, y concluye que Parquet combinado con Polars es la opción ideal para manejar incrustaciones de texto de tamaño medio, siendo las bases de datos vectoriales necesarias solo para conjuntos de datos extremadamente grandes.

Leer más

¿Pueden los LLMs escribir mejor código si se les pide repetidamente que “escriban mejor código”?

2025-01-03
¿Pueden los LLMs escribir mejor código si se les pide repetidamente que “escriban mejor código”?

Esta entrada de blog detalla un experimento que explora si pedir repetidamente a un Modelo de Lenguaje Grande (LLM) que “escriba mejor código” mejora la calidad del código. Usando Claude 3.5 Sonnet, el autor comienza con un problema de codificación Python simple y solicita iterativamente al LLM. El rendimiento mejora drásticamente, alcanzando una aceleración de 100x. Sin embargo, las indicaciones iterativas simples conducen a una sobreingeniería. La ingeniería de indicaciones precisa produce un código mucho más eficiente. El experimento muestra que los LLMs pueden ayudar en la optimización del código, pero la intervención humana y la experiencia siguen siendo cruciales para la calidad y la eficiencia.

Leer más