انقطاع خدمة كبير في OpenAI: خدمة قياس عن بُعد جديدة تسبب تعطلاً رئيسيًا
2024-12-16
شهدت OpenAI انقطاعًا كبيرًا في الخدمة في 11 ديسمبر، ناجمًا عن خدمة قياس عن بُعد جديدة تم نشرها مؤخرًا. وتهدف هذه الخدمة إلى تحسين الموثوقية، لكنها ولّدت بشكل غير متوقع حملًا هائلاً على خوادم واجهة برمجة التطبيقات Kubernetes، مما أدى إلى تشبع الخوادم وتسبب في تعطل مستوى التحكم في Kubernetes في معظم العناقيد الكبيرة. وقد أدى ذلك إلى تعطل آلية اكتشاف الخدمات القائمة على DNS. يُبرز الحادث التفاعلات غير المتوقعة داخل الأنظمة المعقدة، وتحديات اختبار أوضاع الفشل التي تظهر فقط عند التحميل الكامل. استعادت OpenAI الخدمة من خلال تقليل حجم العناقيد، وحظر الوصول إلى شبكة واجهات برمجة التطبيقات الإدارية Kubernetes، وزيادة عدد خوادم واجهة برمجة التطبيقات.