ts_zip:大規模言語モデルを用いたテキスト圧縮

2024-12-30

Fabrice Bellard氏によって開発されたts_zipは、大規模言語モデルRWKV 169M v4を利用し、従来の圧縮ツールをはるかに凌駕する高いテキスト圧縮率を実現するツールです。GPUと4GBのRAMを必要とし、従来の圧縮ツールよりも速度は遅いものの(RTX 4090で最大1MB/s)、英語やその他の言語のテキスト、さらにはソースコードにおいても優れた圧縮性能を示します。圧縮率はビット毎バイト(bpb)で測定され、enwik8やenwik9などのデータセットにおいてxzよりも優れた結果を示しています。決定論的なモデル評価により、異なるハードウェアやソフトウェア構成においても一貫した解凍が保証されます。