ts_zip: Compressão de Texto usando Modelos de Linguagem Grandes

2024-12-30

Fabrice Bellard lançou a ts_zip, uma ferramenta de compressão de texto que utiliza o modelo de linguagem grande RWKV 169M v4 para alcançar taxas de compressão muito superiores às de ferramentas tradicionais. Embora necessite de GPU e 4 GB de RAM, e seja mais lenta que os compressores convencionais (até 1 MB/s em uma RTX 4090), a ts_zip demonstra uma compressão impressionante em textos em inglês e outros idiomas, incluindo código-fonte. A taxa de compressão é medida em bits por byte (bpb), com resultados mostrando desempenho superior ao xz em conjuntos de dados como enwik8 e enwik9. A avaliação do modelo determinística garante a descompactação consistente em diferentes configurações de hardware e software.

Leia mais
Desenvolvimento compressão de texto

Nova ferramenta de compressão de mensagens curtas: ts_sms

2024-12-30

ts_sms é uma nova ferramenta para compressão de mensagens curtas usando modelos de linguagem grandes. Ela usa compressão sem perdas, reduzindo bits identificando e eliminando redundância estatística sem perda de informação. Comparada com ferramentas como brotli, ts_sms apresenta vantagens na compressão de mensagens pequenas. Versões para Linux e Windows estão disponíveis. Sua tecnologia principal é similar ao ts_zip, utilizando um sistema de preenchimento específico compatível com codificação aritmética, eliminando a necessidade de codificar explicitamente o comprimento da mensagem.

Leia mais
Desenvolvimento