Zstandardのロングレンジモード:ゲノム圧縮におけるブレークスルー

2025-09-15

Zstandardの--longレンジマッチファインダーは、検索ウィンドウを拡大することで、大規模ファイルの圧縮効率を大幅に向上させます。661,405個のバクテリアゲノムを含む2.6Tbpのデータセットに対するテストでは、デフォルトのZstandardの圧縮率はわずか3でした。--longモードを有効にすると、これが4にわずかに向上しました。しかし、FASTAファイルから改行を削除すると、圧縮率は31に劇的に向上し、特殊なDNA圧縮ツールのパフォーマンスに近づき、ファイルサイズは80GBに削減されました。圧縮時間はわずかに増加しましたが、この効率向上は、大規模なゲノムデータセットの処理において貴重な最適化となります。

テクノロジー ゲノム圧縮