Modo de longo alcance do Zstandard: um avanço na compressão de genomas
O localizador de correspondência de longo alcance do Zstandard aumenta significativamente a eficiência de compressão para arquivos grandes, aumentando a janela de pesquisa. Testes em um conjunto de dados de 2,6 Tbp com 661.405 genomas bacterianos mostraram que o Zstandard padrão alcançou uma taxa de compressão de apenas 3. Ativando o modo --long, isso melhorou modestamente para 4. No entanto, remover as novas linhas dos arquivos FASTA aumentou dramaticamente a taxa para 31, aproximando-se do desempenho de compressores de DNA especializados, reduzindo o tamanho do arquivo para 80 GB. Embora o tempo de compressão tenha aumentado ligeiramente, esse ganho de eficiência representa uma otimização valiosa para o manuseio de grandes conjuntos de dados genômicos.