Analyse des vollständigen Hacker News Datensatzes mit DuckDB

2025-04-30
Analyse des vollständigen Hacker News Datensatzes mit DuckDB

Der Autor hat den vollständigen Hacker News Datensatz heruntergeladen – eine 20 GB große JSON-Datei mit allem, was jemals auf der Seite veröffentlicht wurde – und ihn mit der DuckDB Datenbank analysiert. Der Beitrag beschreibt den Downloadprozess und verwendet SQL-Abfragen, um gleitende 12-Wochen-Durchschnitte der Häufigkeit von Erwähnungen für bestimmte Programmiersprachen (Python, JavaScript, Java, Ruby, Rust) zu berechnen. Der Autor lobt die Benutzerfreundlichkeit und Geschwindigkeit von DuckDB und schlägt humorvoll zukünftige Möglichkeiten vor, wie z. B. das Trainieren von LLMs auf dem Datensatz.

Entwicklung