Mode longue portée de Zstandard : une percée dans la compression de génomes
Le moteur de recherche de correspondance longue portée de Zstandard améliore considérablement l’efficacité de la compression pour les fichiers volumineux en augmentant la fenêtre de recherche. Des tests sur un ensemble de données de 2,6 Tbp contenant 661 405 génomes bactériens ont montré que Zstandard par défaut atteignait un taux de compression de seulement 3. L’activation du mode --long l’a modestement amélioré à 4. Cependant, la suppression des sauts de ligne des fichiers FASTA a considérablement augmenté le taux à 31, se rapprochant des performances des compresseurs d’ADN spécialisés, réduisant la taille du fichier à 80 Go. Bien que le temps de compression ait légèrement augmenté, ce gain d’efficacité représente une optimisation précieuse pour la gestion de grands ensembles de données génomiques.