Compression incroyable : réduction de 10 Go de données de transport RATP à 530 Ko avec Rust
Ce projet de week-end a commencé par la navigation dans le référentiel de données ouvertes du réseau de transport public parisien. L’auteur a remarqué une section sur la réutilisation des données, présentant des projets externes utilisant ces données ouvertes, notamment le site Web d’état de la RATP qui visualise les interruptions historiques. Le référentiel GitHub contient des fichiers JSON interrogés toutes les 2 minutes pendant près d’un an, pour un total de plus de 10 Go. L’auteur s’est demandé s’il était possible de mieux compresser ces données. Cet article explique comment il a utilisé le modèle de conception d’internement de Rust pour obtenir une compression 2000x ! Les techniques explorées incluent l’optimisation de la structure de l’internement, l’ajustement du schéma de données et l’utilisation de l’internement dans la sérialisation. Le résultat ? Une réduction impressionnante de 1,1 Go de fichiers JSON à seulement 530 Ko.