شرکت آمازون در گزارشی تازه اعلام کرده است که منشأ قطعی بزرگ اخیر سرویس ابری AWS، وجود یک باگ در نرمافزار اتوماسیون داخلی این شرکت بوده است. این اختلال باعث شد بسیاری از وبسایتها، اپلیکیشنها و بازیهای آنلاین برای مدتی از دسترس خارج شوند.
براساس گزارش منتشرشده در وبسایت انگجت، مشکل از یکی از زیرسیستمهای DynamoDB آغاز شد؛ همان جایی که مشتریان AWS دادههای خود را ذخیره میکنند. این نقص باعث شد بخشی از فرایندهای خودکار مربوط به مدیریت رکوردهای DNS دچار خطا شود. DynamoDB معمولاً مسئولیت ثبت و بهروزرسانی صدها هزار رکورد DNS را بر عهده دارد و باید بتواند ایرادات احتمالی را بهطور خودکار رفع کند.
اما در تاریخ ۲۰ اکتبر، این سیستم بهجای اصلاح خودکار، دچار باگی شد که رکوردهای DNS خالی برای مراکز داده آمازون در شمال ویرجینیا ایجاد کرد. در نتیجه، ارتباط میان بخشهای مختلف شبکه AWS مختل شد و سامانهی اتوماسیون نیز قادر به رفع خودکار مشکل نبود. در نهایت، تیمهای فنی آمازون مجبور شدند بهصورت دستی وارد عمل شوند تا سرویسها دوباره به حالت پایدار بازگردند.
این حادثه بار دیگر نشان داد که حتی بزرگترین و پیشرفتهترین زیرساختهای ابری دنیا نیز از آسیبهای ناشی از وابستگی بیش از حد به اتوماسیون مصون نیستند. هرچند سیستمهای خودکار سرعت و دقت عملیات را افزایش میدهند، اما در زمان بروز خطا، همین اتکا میتواند نقطهضعف بزرگی ایجاد کند. آمازون با شفافسازی سریع علت اختلال، سعی در حفظ اعتماد کاربران داشت، اما این رویداد میتواند زنگ خطری برای سایر ارائهدهندگان سرویسهای ابری باشد تا سازوکارهای نظارت انسانی و بررسی دستی را همچنان بخشی جداییناپذیر از سیستمهای خود نگه دارند.
تأثیر گسترده باگ AWS بر سرویسهای جهانی و هشدار درباره اتکای بیشازحد به اتوماسیون
در جریان اختلال اخیر سرویس ابری AWS، تمامی سیستمهایی که نیاز به اتصال به DynamoDB داشتند، از جمله مشتریان اصلی خدمات ابری آمازون، با خطاهای DNS مواجه شدند و برای مدتی از دسترس خارج شدند. این مشکل دامنهی وسیعی از سرویسهای اینترنتی را تحت تأثیر قرار داد.
وبسایت خود آمازون، بازی محبوب Fortnite، پلتفرمهای آموزشی مانند Duolingo، سرویسهای Apple TV و Apple Music، شبکهی PlayStation و اپلیکیشن Snapchat تنها بخشی از خدماتی بودند که عملکردشان مختل شد. برخی از این سرویسها با تأخیر در پاسخگویی به درخواست کاربران روبهرو شدند و برخی دیگر بهطور کامل از دسترس خارج شدند.
در حالی که آمازون بهتازگی از برنامهی خود برای گسترش اتوماسیون و جایگزینی حدود ۶۰۰ هزار موقعیت شغلی با رباتها تا سال ۲۰۳۳ خبر داده است، چنین رخدادهایی نشان میدهد که اتکای کامل به سیستمهای خودکار، بدون پیشبینی خطاهای احتمالی، میتواند ریسکهای سنگینی برای کسبوکار به همراه داشته باشد.
این رویداد نهتنها ضعف فنی موقتی AWS را آشکار کرد، بلکه پرسشی عمیقتر را مطرح میکند: آیا اتوماسیون بدون نظارت انسانی واقعاً قابل اعتماد است؟ آمازون با تمرکز بر کاهش هزینهها از طریق هوش مصنوعی و رباتها، آیندهای کارآمدتر را هدف گرفته، اما بحران اخیر نشان داد که حتی کوچکترین نقص در سیستمهای خودکار میتواند تأثیری جهانی داشته باشد. حفظ توازن میان اتوماسیون و کنترل انسانی، شاید مهمترین چالش پیشروی غولهای فناوری در دههی آینده باشد.

