ts_zip: 대규모 언어 모델을 사용한 텍스트 압축

2024-12-30

Fabrice Bellard가 개발한 ts_zip은 대규모 언어 모델 RWKV 169M v4를 사용하여 기존 압축 도구보다 훨씬 높은 텍스트 압축률을 달성하는 도구입니다. GPU와 4GB RAM이 필요하며 기존 압축 도구보다 속도는 느리지만(RTX 4090에서 최대 1MB/s), 영어 및 기타 언어 텍스트는 물론 소스 코드에서도 우수한 압축 성능을 보여줍니다. 압축률은 비트당 바이트(bpb)로 측정되며, enwik8 및 enwik9와 같은 데이터 세트에서 xz보다 우수한 결과를 보여줍니다. 결정론적 모델 평가를 통해 다양한 하드웨어 및 소프트웨어 구성에서 일관된 압축 해제가 보장됩니다.

더 보기

새로운 단문 메시지 압축 도구: ts_sms

2024-12-30

ts_sms는 대규모 언어 모델을 사용하는 단문 메시지 압축 도구입니다. 손실 없는 압축 기술을 사용하여 통계적 중복을 식별하고 제거함으로써 비트 수를 줄이며 정보 손실이 없습니다. brotli와 같은 도구와 비교하여 ts_sms는 작은 메시지 압축에서 이점이 있습니다. Linux 및 Windows 버전을 사용할 수 있습니다. 핵심 기술은 ts_zip과 유사하며, 산술 부호화와 호환되는 특정 패딩 시스템을 사용하여 메시지 길이를 명시적으로 인코딩할 필요가 없습니다.

더 보기
개발