Modo de largo alcance de Zstandard: un avance en la compresión de genomas

2025-09-15

El buscador de coincidencias de largo alcance de Zstandard mejora significativamente la eficiencia de compresión para archivos grandes al aumentar la ventana de búsqueda. Las pruebas en un conjunto de datos de 2,6 Tbp con 661.405 genomas bacterianos mostraron que Zstandard por defecto alcanzó una relación de compresión de solo 3. Habilitar el modo --long la mejoró modestamente a 4. Sin embargo, eliminar los saltos de línea de los archivos FASTA aumentó drásticamente la relación a 31, acercándose al rendimiento de los compresores de ADN especializados, reduciendo el tamaño del archivo a 80 GB. Si bien el tiempo de compresión aumentó ligeramente, esta ganancia de eficiencia representa una optimización valiosa para el manejo de grandes conjuntos de datos genómicos.

Tecnología compresión de genoma