Zstandards Long-Range-Modus: Ein Durchbruch in der Genomkompression

2025-09-15

Der Long-Range-Matchfinder von Zstandard verbessert die Kompressionsleistung für große Dateien deutlich, indem er das Suchfenster vergrößert. Tests an einem 2,6-Tbp-Datensatz mit 661.405 bakteriellen Genomen zeigten, dass Zstandard standardmäßig eine Kompressionsrate von nur 3 erreichte. Die Aktivierung des --long-Modus verbesserte dies leicht auf 4. Das Entfernen von Zeilenumbrüchen aus den FASTA-Dateien steigerte die Rate jedoch drastisch auf 31 und erreichte damit die Leistung spezialisierter DNA-Kompressoren, wodurch die Dateigröße auf 80 GB reduziert wurde. Obwohl die Kompressionszeit leicht zunahm, stellt dieser Effizienzgewinn eine wertvolle Optimierung für die Verarbeitung großer genomischer Datensätze dar.

Technologie Genomkompression