سبب توقف خدمات Amazon Web Services

أعلنت Amazon Web Services عن أن السبب وراء انقطاع خدمات سحابة AWS الذي ضرب عدّداً كبيراً من التطبيقات والمواقع حول العالم يعود إلى «خلل تلقائي» في نظام الأتمتة الداخلي.

الشركة أوضحت أن الخطأ بدأ في مركز بيانات US-EAST-1 في ولاية فرجينيا، حيث أدّت معالجة تلقائية غير صحيحة لسجّل DNS فارغ إلى فشل تلقائي في إصلاحه، ما تسبب في تعطّل خدمة قواعد بيانات DynamoDB والأنظمة التابعة لها.

هذا الخطأ الانتشاري أدّى إلى توقف خدمات عدد من التطبيقات الشهيرة مثل Snapchat وSignal وغيرها بقائمة تتجاوز الألف، ما كشف مدى اعتماد العالم على بضعة مزوّدي سحابة كبار.

عقب الحادثة، أعلنت AWS أنها أوقفت تشغيل الأدوات التلقائية المعنيّة وأطلقت تحقيقًا داخليًا لتحديد نقاط الضعف وإصلاحها، مؤكّدة أن الانقطاع لم يكن نتيجة هجوم خارجي وإنما خطأ تقني داخل الشركة.

من جهة أخرى، شدّد خبراء أمان على أن الحادث يعكس مخاطر بنيوية في البنية التحتية الرقمية، لا سيّما عندما تعتمد أنظمة متعددة على نقطة فشل واحدة في شبكة السحابة.

جدول مقارنة بين الوضع قبل وبعد انقطاع Amazon Web Services

العنصر	قبل الانقطاع	أثناء وبعد الانقطاع
تشغيل نظام الأتمتة التلقائي	يعمل للمعالجة والصيانة بدون إشراف لحظي	تكلّف ازالة السجل الفارغ يدويًا بعد فشل الإصلاح التلقائي
نطاق التأثير	أجزاء من الخدمات قد تتأثر بشكل محلي	أكثر من ألف خدمة حول العالم توقفت أو تعرّضت لتأخير كبير
مسبب الانقطاع	غير معروف أو خارجي أحيانًا	خلل داخلي في نظام تحكّم تلقائي بشركة AWS
تجربة المستخدم	معظم الخدمات تعمل بسلاسة	ضعف الوصول للتطبيقات وتأخّر العمليات أو انقطاع كامل
الخطوات التصحيحية	صيانة معتادة أو تحديثات دورية	إيقاف الأتمتة مؤقتًا، تحقيق داخلي، فرض تدابير إضافية للحماية

لا يسمح بنقل هذا المحتوى من سوالف دون الاشارة برابط مباشر