ts_zip: Compressão de Texto usando Modelos de Linguagem Grandes
2024-12-30
Fabrice Bellard lançou a ts_zip, uma ferramenta de compressão de texto que utiliza o modelo de linguagem grande RWKV 169M v4 para alcançar taxas de compressão muito superiores às de ferramentas tradicionais. Embora necessite de GPU e 4 GB de RAM, e seja mais lenta que os compressores convencionais (até 1 MB/s em uma RTX 4090), a ts_zip demonstra uma compressão impressionante em textos em inglês e outros idiomas, incluindo código-fonte. A taxa de compressão é medida em bits por byte (bpb), com resultados mostrando desempenho superior ao xz em conjuntos de dados como enwik8 e enwik9. A avaliação do modelo determinística garante a descompactação consistente em diferentes configurações de hardware e software.
Desenvolvimento
compressão de texto