ts_zip: Compresión de texto con modelos de lenguaje grandes

2024-12-30

Fabrice Bellard ha lanzado ts_zip, una herramienta de compresión de texto que utiliza el modelo de lenguaje grande RWKV 169M v4 para lograr tasas de compresión mucho mayores que las herramientas tradicionales. Si bien requiere una GPU y 4 GB de RAM, y es más lenta que los compresores convencionales (hasta 1 MB/s en una RTX 4090), ts_zip muestra una compresión impresionante en textos en inglés y otros idiomas, incluido el código fuente. La relación de compresión se mide en bits por byte (bpb), con resultados que muestran un rendimiento superior a xz en conjuntos de datos como enwik8 y enwik9. La evaluación determinística del modelo garantiza la descompresión consistente en diferentes configuraciones de hardware y software.