ts_zip : Compression de texte avec des grands modèles de langage
Fabrice Bellard a publié ts_zip, un outil de compression de texte utilisant le grand modèle de langage RWKV 169M v4 pour atteindre des taux de compression bien supérieurs à ceux des outils traditionnels. Bien qu'il nécessite une GPU et 4 Go de RAM, et qu'il soit plus lent que les compresseurs classiques (jusqu'à 1 Mo/s sur une RTX 4090), ts_zip montre une compression impressionnante sur les textes anglais et d'autres langues, y compris le code source. Le ratio de compression est mesuré en bits par octet (bpb), les résultats montrant des performances supérieures à xz sur des jeux de données comme enwik8 et enwik9. L'évaluation déterministe du modèle garantit une décompression cohérente sur différentes configurations matérielles et logicielles.
Lire plus