ts_zip: ضغط النص باستخدام نماذج اللغة الكبيرة

2024-12-30

أصدر فابريس بيلارد أداة جديدة لضغط النصوص تسمى ts_zip، والتي تستخدم نموذج لغة كبير RWKV 169M v4 لتحقيق نسب ضغط أعلى بكثير من الطرق التقليدية. على الرغم من أنها تتطلب وحدة معالجة الرسومات و 4 غيغابايت من ذاكرة الوصول العشوائي، وأن سرعتها أبطأ من ضواغط البيانات التقليدية (حتى 1 ميغابايت/ثانية على RTX 4090)، إلا أن ts_zip تُظهر ضغطًا مثيرًا للإعجاب للنصوص الإنجليزية ولغات أخرى، بما في ذلك الشيفرة المصدرية. يتم قياس نسبة الضغط بوحدات البت لكل بايت (bpb)، حيث تُظهر النتائج أداءً أفضل من xz على مجموعات البيانات مثل enwik8 و enwik9. يضمن التقييم الحتمي للنموذج فك ضغطًا ثابتًا عبر تكوينات الأجهزة والبرامج المختلفة.

اقرأ المزيد
التطوير ضغط النص

أداة جديدة لضغط الرسائل القصيرة: ts_sms

2024-12-30

ts_sms هي أداة جديدة لضغط الرسائل القصيرة باستخدام نماذج اللغة الكبيرة. تستخدم ضغطًا بدون فقدان، مما يقلل من عدد البتات عن طريق تحديد وإزالة التكرار الإحصائي بدون فقدان للمعلومات. مقارنةً بأدوات مثل brotli، تُظهر ts_sms مزايا في ضغط الرسائل الصغيرة. تتوفر إصدارات لنظامي Linux و Windows. تقنيتها الأساسية مشابهة لـ ts_zip، وتستخدم نظام حشو محددًا متوافقًا مع الترميز الحسابي، مما يلغي الحاجة إلى ترميز طول الرسالة بشكل صريح.

اقرأ المزيد
التطوير