مؤشر بحث Marginalia: زيادة كبيرة في الأداء

2025-08-17

خضع محرك بحث Marginalia لإعادة تصميم كبيرة لمؤشره للاستفادة بشكل أفضل من الأجهزة الحديثة. باستخدام أشجار B مُمَثَّلة في الذاكرة وقوائم القفز القائمة على الكتل الحتمية، بالإضافة إلى ضبط دقيق لحجم الكتل واستراتيجيات إدخال/إخراج، تم تحسين سرعات البحث بشكل كبير. توضح هذه المقالة تفاصيل هياكل البيانات الجديدة وتحسينات الأداء، وتستكشف خصائص أداء القراءة لـ SSD NVMe وكيفية زيادة الأداء من خلال ضبط حجم الكتلة ووضع إدخال/إخراج.

اقرأ المزيد
التطوير

محرك بحث Marginalia: الكشف المحسّن عن التغييرات وحالة الاتصال بالإنترنت

2025-06-19

قام فريق محرك البحث Marginalia بتنفيذ نظام جديد يسمى 'ping-process' للكشف عن حالة الاتصال بالإنترنت للخادم والتغييرات المهمة على موقع الويب، بما في ذلك عمليات نقل الملكية وإيقاف تشغيل النطاقات. يستخدم النظام بشكل أساسي طلبات HTTP HEAD واستعلامات DNS لتحليل تفاصيل الشهادة، وموقف الأمان، ورؤوس الخادم لتحديد التغييرات. يتم تخزين البيانات في جداول 'لقطة' و 'حدث'، حيث تحتوي الأولى على المعلومات الحالية والثانية على الأحداث التاريخية. لقد تغلب النظام على تحديات الجدولة والتحقق من صحة الشهادات، مما أظهر نجاحًا أوليًا في تحديد النطاقات المتوقفة. تشمل الخطط المستقبلية تحسين نموذج الكشف عن تغييرات الملكية ودمجه في استراتيجيات الزحف لتحقيق المزيد من الكفاءة.

اقرأ المزيد

زيادة مُفرطة في الذكاء الاصطناعي: يومٌ في المستقبل المُرعب؟

2025-05-23

من ساعة منبه تعمل بالذكاء الاصطناعي إلى صالة ألعاب رياضية ذات إجراءات أمنية مُفرطة، وسيارة تتباهى باستمرار بميزاتها، يُسيطر الذكاء الاصطناعي المُنتشر على يوم البطل. هذا المستقبل المُريح ظاهريًا مليء بمضايقات مُختنقة وانتهاكات للخصوصية، مما يُحفز على التفكير في التطوير المُفرط لتقنية الذكاء الاصطناعي ونقص التفاعل البشري.

اقرأ المزيد
التكنولوجيا مستقبل مُرعب

محرك البحث يضيف فهرسة ملفات PDF: التغلب على تحديات استخراج النصوص

2025-05-13

اكتسب محرك البحث مؤخرًا القدرة على فهرسة ملفات PDF، وهي مهمة أكثر تعقيدًا مما تبدو عليه. لا تعتمد ملفات PDF على النصوص؛ بل هي رسوم بيانية، تمثل النصوص كإحداثيات صورة نقطية يمكن تدويرها أو تداخلها أو عدم ترتيبها. تتناول هذه المقالة بالتفصيل التحسينات التي أُدخِلت على فئة PDFTextStripper من PDFBox. من خلال التحليل الإحصائي لأحجام الخطوط ومسافات الأسطر، يتم تحديد المعلومات الدلالية مثل العناوين والفقرات بشكل أكثر فعالية. يحسّن هذا من دقة وملاءمة استخراج نصوص PDF، مما يسمح بفهرسة محتوى PDF بكفاءة.

اقرأ المزيد
التطوير فهرسة PDF

تحسين زاحف محرك البحث: الذيل الطويل بنسبة 0.1%

2025-03-27

لطالما واجه زاحف محرك بحث صعوبة في إنهاء مهمته، حيث يقضي أيامًا على النطاقات الأخيرة. أدت الهجرة الأخيرة إلى بيانات الزحف المقلصة إلى تقليل استخدام الذاكرة بنسبة 80٪، مما زاد من مهام الزحف. وقد أدى ذلك إلى اكتمال 99.9٪ في 4 أيام، لكن الـ 0.1٪ المتبقية استغرقت أسبوعًا. تنبع المشكلة من حجم موقع الويب الذي يتبع توزيعًا باريتو، مع مواقع ويب كبيرة (خاصةً مواقع أكاديمية ذات العديد من النطاقات الفرعية والوثائق) وحدود الزاحف على المهام المتزامنة لكل نطاق. أدى الترتيب العشوائي الأولي إلى بدء المواقع الكبيرة متأخرة. أدى الفرز حسب عدد النطاقات الفرعية إلى زيادة الطلبات على مضيفات المدونات. أدى إضافة اهتزاز إلى تأخير الطلبات وضبط ترتيب الفرز لإعطاء الأولوية للمواقع التي تحتوي على أكثر من 8 نطاقات فرعية إلى حل المشكلة جزئيًا. ومع ذلك، فإن القيود المتأصلة في نموذج الزحف بالدفعات تتطلب تحسينًا إضافيًا.

اقرأ المزيد
التطوير تحسين الزاحف

مشروع بحث Marginalia يحصل على منحة NLNet ثانية

2025-03-25

حصل مشروع بحث Marginalia على منحة ثانية من NLNet! سيمول هذا التمويل معظم خطة المشروع لعام 2025. يستمر التطوير بدوام كامل منذ صيف عام 2023، وهذه المنحة تضمن مزيدًا من وقت التطوير وتمدد الجدول الزمني للمشروع بشكل كبير. المزيد من التفاصيل لاحقًا.

اقرأ المزيد
التطوير تمويل المشروع

دليل شركات بدء التشغيل للذكاء الاصطناعي: كيف تصبح مواطناً أسوأ على الإنترنت

2025-03-22

يناقش هذا النص الساخر الإجراءات المتطرفة التي تتخذها شركة ناشئة للذكاء الاصطناعي للحصول على بيانات التدريب. بتجاهل robots.txt وتزييف وكلاء المستخدم، فإنها تزحف بلا رحمة إلى النماذج، ومستودعات Git، وحتى تخترق شبكة Wi-Fi الجار. إنها تتجنب تجميع الاتصالات، وترفض إغلاق الاتصالات، وتتخلص عمداً من الحزم، كل ذلك باسم السرعة واكتساب البيانات. تبرز القصة بشكل فكاهي ازدراء القواعد والأخلاقيات الذي أظهرته بعض شركات الذكاء الاصطناعي الناشئة في سعيها للنجاح، مما أدى في النهاية إلى أضرار بسمعتها.

اقرأ المزيد
الشركات الناشئة