خرید اقساطی از سایت کارت با کمترین پیش پرداخت

 باگ در سیستم اتوماسیون، عامل اصلی قطعی گسترده AWS معرفی شد


avatar
نازنین طالب لو
04 آبان 1404 | 3 دقیقه مطالعه

شرکت آمازون در گزارشی تازه اعلام کرده است که منشأ قطعی بزرگ اخیر سرویس ابری AWS، وجود یک باگ در نرم‌افزار اتوماسیون داخلی این شرکت بوده است. این اختلال باعث شد بسیاری از وب‌سایت‌ها، اپلیکیشن‌ها و بازی‌های آنلاین برای مدتی از دسترس خارج شوند.

براساس گزارش منتشرشده در وب‌سایت انگجت، مشکل از یکی از زیرسیستم‌های DynamoDB  آغاز شد؛ همان جایی که مشتریان AWS داده‌های خود را ذخیره می‌کنند. این نقص باعث شد بخشی از فرایندهای خودکار مربوط به مدیریت رکوردهای DNS دچار خطا شود. DynamoDB معمولاً مسئولیت ثبت و به‌روزرسانی صدها هزار رکورد DNS را بر عهده دارد و باید بتواند ایرادات احتمالی را به‌طور خودکار رفع کند.

اما در تاریخ ۲۰ اکتبر، این سیستم به‌جای اصلاح خودکار، دچار باگی شد که رکوردهای DNS خالی برای مراکز داده آمازون در شمال ویرجینیا ایجاد کرد. در نتیجه، ارتباط میان بخش‌های مختلف شبکه AWS مختل شد و سامانه‌ی اتوماسیون نیز قادر به رفع خودکار مشکل نبود. در نهایت، تیم‌های فنی آمازون مجبور شدند به‌صورت دستی وارد عمل شوند تا سرویس‌ها دوباره به حالت پایدار بازگردند.

این حادثه بار دیگر نشان داد که حتی بزرگ‌ترین و پیشرفته‌ترین زیرساخت‌های ابری دنیا نیز از آسیب‌های ناشی از وابستگی بیش از حد به اتوماسیون مصون نیستند. هرچند سیستم‌های خودکار سرعت و دقت عملیات را افزایش می‌دهند، اما در زمان بروز خطا، همین اتکا می‌تواند نقطه‌ضعف بزرگی ایجاد کند. آمازون با شفاف‌سازی سریع علت اختلال، سعی در حفظ اعتماد کاربران داشت، اما این رویداد می‌تواند زنگ خطری برای سایر ارائه‌دهندگان سرویس‌های ابری باشد تا سازوکارهای نظارت انسانی و بررسی دستی را همچنان بخشی جدایی‌ناپذیر از سیستم‌های خود نگه دارند.

 تأثیر گسترده باگ AWS بر سرویس‌های جهانی و هشدار درباره اتکای بیش‌ازحد به اتوماسیون

در جریان اختلال اخیر سرویس ابری AWS، تمامی سیستم‌هایی که نیاز به اتصال به DynamoDB  داشتند، از جمله مشتریان اصلی خدمات ابری آمازون، با خطاهای DNS مواجه شدند و برای مدتی از دسترس خارج شدند. این مشکل دامنه‌ی وسیعی از سرویس‌های اینترنتی را تحت تأثیر قرار داد.

وب‌سایت خود آمازون، بازی محبوب Fortnite، پلتفرم‌های آموزشی مانند Duolingo، سرویس‌های  Apple TV و Apple Music، شبکه‌ی  PlayStation و اپلیکیشن Snapchat  تنها بخشی از خدماتی بودند که عملکردشان مختل شد. برخی از این سرویس‌ها با تأخیر در پاسخگویی به درخواست کاربران روبه‌رو شدند و برخی دیگر به‌طور کامل از دسترس خارج شدند.

در حالی که آمازون به‌تازگی از برنامه‌ی خود برای گسترش اتوماسیون و جایگزینی حدود ۶۰۰ هزار موقعیت شغلی با ربات‌ها تا سال ۲۰۳۳ خبر داده است، چنین رخدادهایی نشان می‌دهد که اتکای کامل به سیستم‌های خودکار، بدون پیش‌بینی خطاهای احتمالی، می‌تواند ریسک‌های سنگینی برای کسب‌وکار به همراه داشته باشد.

این رویداد نه‌تنها ضعف فنی موقتی AWS را آشکار کرد، بلکه پرسشی عمیق‌تر را مطرح می‌کند: آیا اتوماسیون بدون نظارت انسانی واقعاً قابل اعتماد است؟ آمازون با تمرکز بر کاهش هزینه‌ها از طریق هوش مصنوعی و ربات‌ها، آینده‌ای کارآمدتر را هدف گرفته، اما بحران اخیر نشان داد که حتی کوچک‌ترین نقص در سیستم‌های خودکار می‌تواند تأثیری جهانی داشته باشد. حفظ توازن میان اتوماسیون و کنترل انسانی، شاید مهم‌ترین چالش پیش‌روی غول‌های فناوری در دهه‌ی آینده باشد.