Zstandard의 장거리 모드: 게놈 압축의 돌파구
2025-09-15
Zstandard의 --long 범위 일치 검색 기능은 검색 창을 늘려 대용량 파일의 압축 효율을 크게 향상시킵니다. 661,405개의 박테리아 게놈을 포함하는 2.6Tbp 데이터 세트에 대한 테스트에서 기본 Zstandard의 압축률은 겨우 3이었습니다. --long 모드를 활성화하면 이것이 4로 약간 향상되었습니다. 그러나 FASTA 파일에서 개행 문자를 제거하면 압축률이 31로 극적으로 향상되어 특수 DNA 압축 도구의 성능에 근접하고 파일 크기는 80GB로 줄었습니다. 압축 시간이 약간 증가했지만 이러한 효율성 향상은 대규모 게놈 데이터 세트 처리에 있어 귀중한 최적화입니다.
기술
게놈 압축