ts_zip: 대규모 언어 모델을 사용한 텍스트 압축
2024-12-30
Fabrice Bellard가 개발한 ts_zip은 대규모 언어 모델 RWKV 169M v4를 사용하여 기존 압축 도구보다 훨씬 높은 텍스트 압축률을 달성하는 도구입니다. GPU와 4GB RAM이 필요하며 기존 압축 도구보다 속도는 느리지만(RTX 4090에서 최대 1MB/s), 영어 및 기타 언어 텍스트는 물론 소스 코드에서도 우수한 압축 성능을 보여줍니다. 압축률은 비트당 바이트(bpb)로 측정되며, enwik8 및 enwik9와 같은 데이터 세트에서 xz보다 우수한 결과를 보여줍니다. 결정론적 모델 평가를 통해 다양한 하드웨어 및 소프트웨어 구성에서 일관된 압축 해제가 보장됩니다.
더 보기
개발
텍스트 압축