Webtagr - ملخصات الأخبار التكنولوجية

Voyage-3.5: نماذج تضمين الجيل التالي ذات نسبة أداء مقابل التكلفة متفوقة

2025-05-24

أطلقت Voyage AI نموذجي التضمين من الجيل التالي Voyage-3.5 و Voyage-3.5-lite. يحافظ هذان النموذجان على نفس حجم أسلافهما، لكنهما يوفران تحسينات كبيرة في جودة الاسترجاع بتكلفة أقل. مقارنةً بـ OpenAI v3-large، يُظهر Voyage-3.5 و Voyage-3.5-lite جودة استرجاع أفضل بنسبة 8.26% و 6.34% على التوالي، بينما تكلفتها أقل بمقدار 2.2 مرة و 6.5 مرة على التوالي. يدعمان أبعاد تضمين متعددة وخيارات كمية من خلال التعلم Matryoshka والتدريب على الوعي الكمي، مما يقلل بشكل كبير من تكاليف قاعدة بيانات المتجهات مع الحفاظ على دقة أعلى.

اقرأ المزيد

(blog.voyageai.com)

الذكاء الاصطناعي نماذج التضمين

معايير قياس استرجاع التعليمات البرمجية: التحديات ونهج Voyage AI

2025-02-03

تعتمد أدوات المساعدة في البرمجة الحديثة بشكل كبير على استرجاع التعليمات البرمجية، لكن طرق التقييم الحالية غير كافية. تسلط أبحاث Voyage AI الضوء على مشاكل في مجموعات البيانات الحالية، بما في ذلك الملصقات الضوضاء، وعدم وجود تقييم للتفكير الخوارزمي العميق، وتلوث البيانات، مما يؤدي إلى تقييمات نماذج غير موثوقة. لمعالجة ذلك، تقترح Voyage AI طريقتين لإنشاء مجموعات بيانات استرجاع التعليمات البرمجية عالية الجودة: إعادة استخدام مجموعات بيانات الأسئلة والأجوبة، والاستفادة من مستودعات GitHub والمشاكل/التذاكر. كما قامت Voyage AI ببناء مجموعة اختبارات المعايير الداخلية الخاصة بها، والتي تشمل العديد من لغات البرمجة، ومجموعات بيانات متنوعة من الأسئلة والأجوبة، ومعايير قياس محددة للمنطقة، وتقييم العديد من نماذج تضمين التعليمات البرمجية. برز نموذج Voyage-code-3 كأفضل نموذج أداءً.

اقرأ المزيد

(blog.voyageai.com)

التطوير استرجاع التعليمات البرمجية مجموعات البيانات

Voyage-code-3: استرجاع أكواد أكثر دقة بتكلفة أقل

2025-01-14

كشفت Voyage AI عن Voyage-code-3، وهو نموذج جيل جديد لاسترجاع الأكواد يتفوق على OpenAI-v3-large و CodeSage-large بمعدل 13.80% و 16.81% عبر 32 مجموعة بيانات. باستخدام تقنية Matryoshka للتعلم والكمية (int8 و ثنائي)، يقلل Voyage-code-3 بشكل كبير من تكاليف التخزين والبحث مع الحد الأدنى من التأثير على جودة الاسترجاع. يدعم النموذج أبعادًا مدمجة من 2048 و 1024 و 512 و 256، بالإضافة إلى تنسيقات كمية متعددة، ويحتوي على طول سياق 32K توكن. تم تدريب Voyage-code-3 على مجموعة بيانات ضخمة ومتنوعة من الأكواد، ويتفوق في استرجاع الأكواد، خاصة في معالجة المنطق الخوارزمي وقواعد بناء الجملة الدقيقة، وقد تم تقييمه بدقة من حيث المتانة والدقة.

اقرأ المزيد

(blog.voyageai.com)

الذكاء الاصطناعي استرجاع الأكواد نموذج مضمن