基于大型语言模型的文本压缩工具ts_zip问世

2024-12-30

Fabrice Bellard发布了一款名为ts_zip的文本压缩工具,它利用大型语言模型RWKV 169M v4实现远超传统压缩工具的压缩比。ts_zip需要GPU和4GB内存,速度虽然不如传统压缩器,但其在英文及其他语言文本,甚至源代码压缩上表现出色。该工具的压缩率以比特每字节(bpb)衡量,实验结果显示其在enwik8和enwik9数据集上的压缩率显著高于xz。ts_zip采用算术编码和确定性模型评估,保证了压缩文件的可复现解压。

开发 RWKV