ts_zip: Compresión de texto con modelos de lenguaje grandes

2024-12-30

Fabrice Bellard ha lanzado ts_zip, una herramienta de compresión de texto que utiliza el modelo de lenguaje grande RWKV 169M v4 para lograr tasas de compresión mucho mayores que las herramientas tradicionales. Si bien requiere una GPU y 4 GB de RAM, y es más lenta que los compresores convencionales (hasta 1 MB/s en una RTX 4090), ts_zip muestra una compresión impresionante en textos en inglés y otros idiomas, incluido el código fuente. La relación de compresión se mide en bits por byte (bpb), con resultados que muestran un rendimiento superior a xz en conjuntos de datos como enwik8 y enwik9. La evaluación determinística del modelo garantiza la descompresión consistente en diferentes configuraciones de hardware y software.

Leer más

Nueva herramienta de compresión de mensajes cortos: ts_sms

2024-12-30

ts_sms es una nueva herramienta para la compresión de mensajes cortos utilizando modelos de lenguaje grandes. Emplea compresión sin pérdidas, reduciendo bits mediante la identificación y eliminación de redundancia estadística sin pérdida de información. En comparación con herramientas como brotli, ts_sms presenta ventajas en la compresión de mensajes pequeños. Están disponibles versiones para Linux y Windows. Su tecnología principal es similar a ts_zip, utilizando un sistema de relleno específico compatible con la codificación aritmética, eliminando la necesidad de codificar explícitamente la longitud del mensaje.

Leer más
Desarrollo