ts_zip: ضغط النص باستخدام نماذج اللغة الكبيرة
أصدر فابريس بيلارد أداة جديدة لضغط النصوص تسمى ts_zip، والتي تستخدم نموذج لغة كبير RWKV 169M v4 لتحقيق نسب ضغط أعلى بكثير من الطرق التقليدية. على الرغم من أنها تتطلب وحدة معالجة الرسومات و 4 غيغابايت من ذاكرة الوصول العشوائي، وأن سرعتها أبطأ من ضواغط البيانات التقليدية (حتى 1 ميغابايت/ثانية على RTX 4090)، إلا أن ts_zip تُظهر ضغطًا مثيرًا للإعجاب للنصوص الإنجليزية ولغات أخرى، بما في ذلك الشيفرة المصدرية. يتم قياس نسبة الضغط بوحدات البت لكل بايت (bpb)، حيث تُظهر النتائج أداءً أفضل من xz على مجموعات البيانات مثل enwik8 و enwik9. يضمن التقييم الحتمي للنموذج فك ضغطًا ثابتًا عبر تكوينات الأجهزة والبرامج المختلفة.
اقرأ المزيد