Analizando el conjunto de datos completo de Hacker News con DuckDB
2025-04-30
El autor descargó el conjunto de datos completo de Hacker News, un archivo JSON de 20 GB que contiene todo lo que se ha publicado en el sitio, y lo analizó usando la base de datos DuckDB. La publicación detalla el proceso de descarga y utiliza consultas SQL para calcular promedios móviles de 12 semanas de la frecuencia de menciones para lenguajes de programación específicos (Python, JavaScript, Java, Ruby, Rust). El autor elogia la facilidad de uso y la velocidad de DuckDB, sugiriendo de forma humorística posibilidades futuras como el entrenamiento de modelos LLM en el conjunto de datos.
Desarrollo