ts_zip: Textkompression mit großen Sprachmodellen

2024-12-30

Fabrice Bellard hat ts_zip veröffentlicht, ein Textkompressionstool, das das große Sprachmodell RWKV 169M v4 verwendet, um deutlich höhere Kompressionsraten als herkömmliche Methoden zu erreichen. Es benötigt eine GPU und 4 GB RAM und ist langsamer als herkömmliche Kompressoren (bis zu 1 MB/s auf einer RTX 4090), zeigt aber beeindruckende Kompression bei englischen und anderen Texten, einschließlich Quellcode. Das Kompressionsverhältnis wird in Bits pro Byte (bpb) gemessen, wobei die Ergebnisse eine bessere Leistung als xz bei Datensätzen wie enwik8 und enwik9 zeigen. Die deterministische Modellbewertung gewährleistet eine konsistente Dekompression auf verschiedenen Hardware- und Softwarekonfigurationen.

Mehr lesen
Entwicklung Textkompression

Neues Tool zur Komprimierung kurzer Nachrichten: ts_sms

2024-12-30

ts_sms ist ein neues Tool zur Komprimierung kurzer Nachrichten mithilfe großer Sprachmodelle. Es verwendet verlustfreie Komprimierung, reduziert Bits durch Identifizierung und Eliminierung statistischer Redundanz ohne Informationsverlust. Im Vergleich zu Tools wie brotli bietet ts_sms Vorteile bei der Komprimierung kleiner Nachrichten. Versionen für Linux und Windows sind verfügbar. Die Kerntechnologie ähnelt ts_zip und verwendet ein spezielles Füllsystem, das mit der arithmetischen Kodierung kompatibel ist, wodurch die explizite Kodierung der Nachrichtenlänge entfällt.

Mehr lesen
Entwicklung Datenkomprimierung