ts_zip : Compression de texte avec des grands modèles de langage

2024-12-30

Fabrice Bellard a publié ts_zip, un outil de compression de texte utilisant le grand modèle de langage RWKV 169M v4 pour atteindre des taux de compression bien supérieurs à ceux des outils traditionnels. Bien qu'il nécessite une GPU et 4 Go de RAM, et qu'il soit plus lent que les compresseurs classiques (jusqu'à 1 Mo/s sur une RTX 4090), ts_zip montre une compression impressionnante sur les textes anglais et d'autres langues, y compris le code source. Le ratio de compression est mesuré en bits par octet (bpb), les résultats montrant des performances supérieures à xz sur des jeux de données comme enwik8 et enwik9. L'évaluation déterministe du modèle garantit une décompression cohérente sur différentes configurations matérielles et logicielles.

Lire plus
Développement compression de texte

Nouvel outil de compression de messages courts : ts_sms

2024-12-30

ts_sms est un nouvel outil de compression de messages courts utilisant des grands modèles de langage. Il utilise une compression sans perte, réduisant le nombre de bits en identifiant et en éliminant la redondance statistique sans perte d'information. Comparé à des outils comme brotli, ts_sms présente des avantages pour la compression de petits messages. Des versions Linux et Windows sont disponibles. Sa technologie principale est similaire à ts_zip, utilisant un système de remplissage spécifique compatible avec le codage arithmétique, éliminant ainsi le besoin de coder explicitement la longueur du message.

Lire plus
Développement