گزارش حادثه در دیتاسنتر OVH و اقدامات فوری ایرانسرور
گزارش حادثه در دیتاسنتر OVH و اقدامات فوری ایرانسرور
چهارشنبه بیستم اسفند 99، ایران سرور یکی از پرفشارترین روزهای خود را پشت سر گذاشت. آتشسوزی در یکی از دیتاسنترهای OVH فرانسه باعث شد تا تعدادی از سایتهای مشتریان که روی این دیتاسنتر قرار داشت از دسترس خارج شود.
در این مطلب میخواهیم ابتدا نگاهی به حادثه داشته باشیم و بعد از آن نحوه مدیریت بحران ایران سرور و ساعات سختی که پشت سرگذاشته شد را مرور کنیم.
ماجرای آتشسوزی در دیتاسنتر OVH فرانسه
نیمهشب بیستم اسفند ماه بود که خبر آتشسوزی در یکی از دیتاسنترهای OVH فرانسه خواب را از چشمان بچههای ایران سرور گرفت. این آتشسوزی در بندر دورین، واقع در استراسبورگ اتفاق افتاد و بزرگی حادثه به حدی بود که حدود 100 آتشنشان برای مهار آتشسوزی به محل اعزام شدند.
البته این حادثه بعد از ساعاتی مهار شد و خوشبختانه هیچ گونه خسارت جانی نداشت؛ اما وجود سایتهای تعدادی از مشتریان ایرانسرور روی این دیتاسنتر، بیشترین نگرانی را ایجاد کرده بود.
اعضای تیمهای مختلف، اعم از مرکز عملیات، شبکه، فروش، مرکز تماس و واحد نصب از همان لحظات اول در محل شرکت حضور پیدا کردند تا بتوانند در کمترین زمان، اقدامات لازم را برای سایتهای مشتریان و کاهش خسارتهای احتمالی انجام دهند.
اقدامات ایرانسرور در بازگردانی سایتها
کارشناسان بخش COC با استفاده از مانیتورینگ، در بررسی اولیه متوجه شدند که 17 سرور آسیب دیده است. اما برای اینکه آمار دقیقتری از سرورهای آسیبدیده داشته باشند، نیاز به بررسی بیشتری بود.
همزمان در تیمهای مختلف، تمام اتفاقات از طریق سایتهای مرتبط و سایت شرکت OVH رصد میشد تا اگر تغییری در وضعیت اتفاق افتاد، بتوانند تصمیم جدیدتر و بهتری بگیرند.
کارشناسان فروش و مرکز تماس هم به صورت موازی با اجرای یک استراتژی هماهنگ و همسو، آماده اطلاعرسانی به مشتریان شدند. هرکدام از کارشناسان این بخشها ضمن پاسخگویی به مشتریان، به آنها اطمینان خاطر دادند که در ساعات آینده مشکل سایتها برطرف خواهد شد.
بعد از گذشت زمان کوتاهی مشخص شد، سرورهای isvps، euvps، LH34، LH19، LH290، LH270، LH280، Soren و WH06 آسیب جدی دیدهاند و ساختمان SBG2 به طور کامل نابود شده و تا اطلاع ثانوی در دسترس نخواهد بود. بخشی از سرورهای آسیب دیده هم سرورهایی بودند که اطلاعات ایران سرور روی آنها قرار داشت.
1000 سایت و 96 سرور مجازی در این ماجرا درگیر شده بودند و ما باید برای کنترل خسارت، فوراً وارد عمل میشدیم. خوشبختانه آمادگی تیم عالی بود و عملیات بازگردانی اطلاعات این سرورها با نهایت سرعت عمل و در 3 گام موازی، انجام شد.
گام اول: شناسایی مشتریان جدید
در اولین گام تعدادی از سرورهایی که تازه تحویل مشتری شده بودند و اطلاعات چندانی روی آنها نبود مشخص شد و کارشناسان بخش نصب با جایگزینی سرورهای مورد نیاز برای واحد مرکز عملیات، مشکل فضا را حل کردند. اعضای تیم مرکز عملیات هم با سرعت بخشیدن به کارها تمام این سرویسها را در ساعات اولیه به مشتریان تحویل دادند. تا ساعت 12 ظهر بازگردانی تمام سایتهای روی سرورهای Soren و LH290 تمام شد.
گام دوم: تمرکز روی سرورهای نسبتاً قدیمیتر
گام بعدی انتقال اطلاعات سرورهای LH270 و LH280 بود که نسبتا قدیمیتر بودند. سرورهای LH300 و LH310 خیلی زود آماده شدند تا کار انتقال اطلاعات این سرورها آغاز شود. ساعت به نیمههای ظهر روز چهارشنبه نزدیک میشد و کار این سرورها هم با سرعت و نظم خاصی پیش میرفت. هنوز ساعت از 2 بعد از ظهر نگذشته بود که 95 درصد کار انتقال اطلاعات روی این سرورها انجام شد.
گام سوم: کار روی سرور ویندوزی و وردپرسی آسیبدیده
بیشترین چالش در یک سرور وردپرسی و یک سرور ویندوزی وجود داشت. خبر خوب این بود که سرور وردپرسی هیچ آسیبی ندیده و خوشبختانه سالم مانده بود. اما خبر بد این بود که هیچگونه راه دسترسی به این سرور وجود نداشت و طبق اعلام OVH این دسترسی ممکن بود تا دو هفته طول بکشد.
سرور ویندوزی هم به دلیل نوع سیستم عامل، پروسه زمانبری نسبت به سرورهای لینوکسی باید سپری میکرد. بعد از انتقال سایتهای لینوکسی روی سرورها و هاستهای جدید، نوبت به سرور ویندوزی WH06 رسید.
بررسی اولیه نشان داد که کار انتقال این سایتها ممکن است تا روز شنبه ادامه پیدا کند. خوشبختانه با همت و تلاش کارشناسان واحدهای مختلف کار انتقال این سایتها ساعاتی قبل از ورود به روز شنبه به پایان رسید و سایتهای روی این سرورها در دسترس قرار گرفتند.
سه روز سخت، طاقت فرسا و بدون لحظهای استراحت موجب انتقال تمام سایتهای مشتریان به سرورهای جدید شد و در نهایت، دیدن رضایتمندی مشتریان و درک بالای آنها، تمام خستگی این سه روز را از تن بچهها بیرون کرد.
بد نیست حالا که این اتفاق افتاده، یک بار دیگر، به اهمیت خیلی زیاد بکاپ گیری هم اشارهای داشته باشیم.
یک نکته مهم برای کاربران سرور مجازی و اختصاصی: بکاپ بگیرید!
ایرانسرور، برای سرویس هاستهای اشتراکی، بهصورت روزانه و هفتگی نسخه پشتیبان تهیه میکند. نسخه روزانه برای اطلاعات پایگاه داده و نسخه هفتگی، برای تمامی فایلها است. این بکاپها، در 2 مکان مختلف ذخیره میشوند تا نهایت اطمینان حاصل شود.
به عبارت دیگر، یک نسخه از بکاپ روی سرور لوکال و نسخه دیگر روی یک سرور ریموت (واقع در یک دیتاسنتر دیگر) ذخیره میشوند، تا اگر حادثهای مثل OVH رخ داد، مطمئن باشیم که اطلاعات در یک دیتاسنتر دیگر موجود است.
در سرورها مجازی و اختصاصی نیز تنظیمات اولیه برای تهیه نسخه پشتیبان انجام میشود و همچنین فضای اختصاصی (در یک دیتا سنتر مجزا) برای ذخیره بکاپ و پشتیبانی رایگان در اختیار کابران قرار میگیرد. اما عملیات تهیه نسخه پشتیبان، بر عهده کاربران این سرویسها است.
پس لطفاً اگر کاربر VPS یا سرور اختصاصی هستید، برنامه منظمی برای تهیه بکاپ داشته باشید و آن را واقعاً جدی بگیرید!
حرف آخر …
براساس اطلاعاتی که OVH منتشر کرد تمام سرورهای ساختمان SBG3 آسیب ندیده بودند و دسترسی به اطلاعات سرورهای روی این دیتاسنتر امکان پذیر بود. البته OVH زمانبندی دقیقی در مورد روشن کردن این دیتاسنتر مشخص نکرده بود.
تک تک اتفاقات رخ داده به صورت لحظهای از طریق بخش مرکز اطلاع رسانی ایران سرور قابل مشاهده بود و مشتریان میتوانستند وضعیت سرورها و هاستهای خود را از این طریق پیگیری کنند.
همچنین بد نیست بدانید که در این چند روز، 40 عدد اطلاعیه منتشر شد، 50 نفر درگیر عملیات بودند و 1942 تیکت مرتبط با این مشکل پاسخ داده شده است.
خلاصه اینکه، حادثه خبر نمیکند! اما … اینکه چقدر باید برای مقابله با حوادث احتمالی آماده بود، مهم است. در این حادثه هم، اگر اعضای تیمهای مختلف ایران سرور آمادگی نداشتند و سرعت عمل و مدیریت به خرج نمیدادند، ممکن بود تا روزها و هفتهها سایتهای مشتریان در دسترس نباشد.
ایرانسرور به عنوان یکی از مراکز ارائه دهنده خدمات هاستینگ، در این حادثه نشان داد که آمادگی کامل برای حفظ منابع مشتریان را دارد و با مدیریت کامل بحرانهای این چنینی، میتواند به خوبی حافظ تمام اطلاعات سایت مشتریان باشد.
از اینکه صبور بودید و تا حل شدن مشکل ما را همراهی کردید، از شما ممنونیم.