ts_zip: Textkompression mit großen Sprachmodellen
2024-12-30
Fabrice Bellard hat ts_zip veröffentlicht, ein Textkompressionstool, das das große Sprachmodell RWKV 169M v4 verwendet, um deutlich höhere Kompressionsraten als herkömmliche Methoden zu erreichen. Es benötigt eine GPU und 4 GB RAM und ist langsamer als herkömmliche Kompressoren (bis zu 1 MB/s auf einer RTX 4090), zeigt aber beeindruckende Kompression bei englischen und anderen Texten, einschließlich Quellcode. Das Kompressionsverhältnis wird in Bits pro Byte (bpb) gemessen, wobei die Ergebnisse eine bessere Leistung als xz bei Datensätzen wie enwik8 und enwik9 zeigen. Die deterministische Modellbewertung gewährleistet eine konsistente Dekompression auf verschiedenen Hardware- und Softwarekonfigurationen.
Entwicklung
Textkompression