🚶🏻 👨🏿‍🤝‍👨🏽 👩‍✈️ Kecelakaan paling terkenal di pusat data berbagai perusahaan dalam beberapa tahun terakhir dan penyebabnya 🍰 🎾 💋

Pusat data menjadi objek yang semakin penting, karena pekerjaan normal banyak perusahaan besar dan kecil dan keamanan data pengguna biasa bergantung pada operasi normal mereka. Hanya satu menit downtime dari data center besar dapat menyebabkan jutaan kerugian bagi pelanggan operator data center. Nah, berjam-jam atau bahkan lebih berhari-hari downtime menyebabkan kerugian yang terkadang tidak bisa diperkirakan sama sekali. Di bawah potongan - kecelakaan paling terkenal akhir-akhir ini dengan deskripsi alasan terjadinya.

Kebakaran di pusat data OVH

Pada Maret 2021, salah satu pusat data OVH hampir habis terbakar. Ini adalah kecelakaan terbesar dalam beberapa tahun terakhir, karena OVH adalah salah satu penyedia hosting terbesar di Eropa. Kebakaran itu begitu parah sehingga praktis menghancurkan pusat data SBG2. Tersangka utama adalah salah satu sistem tenaga yang tidak pernah terputus, dengan nomor seri internal UPS7. Menjelang kebakaran, sistem ini sedang menjalani pemeliharaan, di mana sejumlah besar komponen diubah di dalamnya. Setelah menyelesaikan prosedur, UPS7 dihidupkan ulang, dan tampaknya berfungsi seperti biasa. Namun tak lama kemudian terjadi kebakaran.

Omong-omong, kebakaran di pusat data, terutama dalam skala ini, sangat jarang terjadi. Uptime Institute melacak kasus-kasus seperti itu - menurut perwakilannya, rata-rata, kebakaran terjadi kurang dari setahun sekali.... Dalam kebanyakan kasus, insiden terputus pada awal pengembangan, tetapi dalam beberapa kasus api masih tidak terkendali.

Dalam kasus OVH dengan pemadaman yang disebabkan oleh efek kebakaran di SBG2, menghadapi sekitar 3,6 juta situs web.

Setelah mempelajari situasi dengan OVH, para ahli sampai pada kesimpulan bahwa mungkin ada beberapa penyebab bencana dan itu bukan hanya catu daya yang tidak pernah terputus. Eskalasi insiden difasilitasi oleh:

-. (Tower design). , . «», , , , .
-, , . , , , . .

Yang terakhir ini semakin aneh karena sekarang ada banyak sekali solusi untuk menjaga keamanan. Katakanlah ada sensor yang memantau parameter lingkungan dan mampu bekerja dengan UPS. Misalnya, sensor pemantauan lingkungan Eaton EMP002 memantau suhu, kelembaban, dan memantau pengoperasian perangkat yang dipasangkan seperti detektor asap atau pembuka pintu. Selain itu, terdapat sistem keamanan yang mampu menangkap perubahan suhu dalam pecahan derajat, memantau konsentrasi karbon monoksida dan zat lainnya. Jika masalah terdeteksi, perangkat tersebut memberi tahu operator tentang layanan dukungan teknis dan menyalakan sinyal bahaya.

Kebakaran di pusat data WebNX

Pada April 2021, kebakaran terjadi di pusat data Ogden dari perusahaan Amerika WebNX. Generator terbakar, setelah itu api menyebar ke tempat yang berdekatan. Akibatnya, terjadi pemadaman listrik total, peralatan server rusak. Beberapa server yang rusak parah akibat kebakaran tidak mungkin dapat dipulihkan.

Situasi menjadi tidak terkendali setelah pasokan listrik ke kota, yang memasok energi ke pusat data, terputus - beberapa generator listrik otonom dihidupkan di pusat data, tetapi salah satunya mengalami gangguan, yang menyebabkan kebakaran .

Petugas pemadam kebakaran yang tiba memadamkan api, tetapi tindakan mereka menyebabkan kerusakan air pada peralatan di daerah yang terkena kebakaran.

Server perusahaan Gorilla Server juga terletak di pusat data ini. Benar, peralatan organisasi ini tidak rusak, tetapi sebagai akibat dari pemadaman listrik, layanan dan situs pelanggan berhenti bekerja. Pusat data dimatikan selama beberapa jam, memulihkan pengoperasian semua sistem membutuhkan waktu sekitar 20 jam. Kerugian operator pusat data dalam hal ini melebihi $25 juta.

Kegagalan pusat data bank TSB

Pada September 2018, bank Inggris TSB memutuskan untuk melakukan migrasi ekstensif peralatan TI, tanpa terlebih dahulu menguji pusat data baru. Hal yang paling menyebalkan bagi perusahaan adalah penyedia layanan TI Sabis, yang dipekerjakan untuk melakukan migrasi, menguji semua data center yang terkena migrasi, kecuali satu. Pada saat yang sama, fakta bahwa pengujian tidak dilakukan disembunyikan dari manajemen.

Hasilnya menyedihkan: dua juta klien bank kehilangan akses ke rekening mereka sekaligus. Bank harus menghabiskan sekitar $ 480 juta untuk menghilangkan konsekuensi dari gangguan pusat data, termasuk biaya investigasi insiden sekitar $ 35 juta.

Kebakaran di pusat data Telstra London

Pada Agustus 2020, pusat data Telstra, perusahaan telekomunikasi terbesar di Australia, rusak. Seperti halnya OVH, masalahnya disebabkan oleh UPS yang rusak. Meski api dapat dipadamkan, tidak seperti OVH, insiden tersebut melanda sebagian besar area data center, yaitu 11.000 meter persegi. Di dalam tempat kebakaran terjadi, ada sekitar 1.800 rak server.

Empat mobil pemadam kebakaran dan 25 anggota awak dikirim ke lokasi sekaligus. Tim tampaknya telah bekerja dengan sangat baik, karena api hanya mampu merusak sebagian kecil gudang. Tidak ada personel yang terluka.

Namun demikian, beberapa lusin server berakhir offline, pekerjaan mereka dipulihkan hanya setelah beberapa jam. Dengan demikian, layanan dan situs klien Telstra tidak berfungsi. Total kerugian perusahaan melebihi $ 10 juta, belum lagi kerugian reputasi.

Kegagalan UPS di pusat data Equinix LD8

Pada Agustus 2020, ada juga masalah dengan jaringan listrik pusat data Equinix LD8: Di sana, setelah pemadaman listrik dari jaringan, UPS gagal di sana. Tidak ada kebakaran, tetapi masalah listrik tidak dapat diselesaikan selama beberapa jam, sehingga banyak pelanggan terpengaruh.

Kecelakaan itu terjadi di pusat data di Docklands London, dan staf pendukung dapat memahami penyebab masalah segera setelah masalah itu muncul. Ternyata, UPS yang dimatikan membuat klaster utama router Juniper MX dan Cisco LNS mati. Cluster inilah yang menyediakan pengoperasian sebagian besar peralatan pusat data.

Setelah klaster dimatikan, layanan dari perusahaan terbesar - klien Equinix terputus. Ini termasuk perusahaan telekomunikasi internasional Epsilon, SiPalto, EX Networks, Fast2Host, ICUK.net dan Evoke Telecom. Kecelakaan itu juga mempengaruhi pengoperasian pusat data lainnya.

Sebagai kesimpulan, saya akan mengatakan bahwa ini jauh dari semua kecelakaan yang terjadi selama beberapa tahun terakhir. Tetapi insiden-insiden ini mungkin yang paling terbuka karena sebenarnya bisa dicegah. Staf yang tidak profesional, masalah UPS, pemadaman listrik adalah masalah umum. Apa insiden pusat data yang menantang yang pernah Anda hadapi? Jika Anda memiliki cerita untuk diceritakan, mari kita diskusikan di komentar.

Bonus: pemadaman listrik karena pemeliharaan

Ada juga situasi yang cukup sulit (walaupun mungkin) untuk diramalkan. Misalnya, The Register pernah menceritakan kembali sebuah cerita yang dikirim ke kantor redaksi oleh salah satu pembacanya. Dahulu kala, ada sebuah server farm dengan tiga UPS 220 kVA, yang bekerja cukup lama dengan normal. Seiring waktu, kebutuhan akan salah satu UPS menghilang, dan diputuskan untuk memindahkannya ke pusat data baru yang baru dibuka. Manajemen berencana untuk menghemat uang untuk pembelian UPS baru - tetapi ternyata berbeda.

Perlu dicatat bahwa pusat data yang dimaksud agak besar, luasnya sekitar 2500 meter persegi. Ada banyak peralatan, beberapa ratus server, jadi rasanya seperti mati untuk mengakui masalah.

Ahli listrik profesional diundang ke pusat data, yang dipercayakan dengan tanggung jawab untuk memutuskan salah satu UPS dari jaringan dan mengangkutnya dengan koneksi lebih lanjut di pusat data baru. Akibatnya, para profesional melakukan kesalahan, dan pusat data benar-benar tidak bertenaga.

“Saya sedang duduk di meja saya ketika tukang listrik mulai mencabut unit UPS dari listrik. Mereka menempatkan sistem pada bypass tanpa masalah. Kemudian mereka memotong pemutus sirkuit keluaran dan beberapa kabel lagi untuk mempercepat pembongkaran. Dan kemudian data center dengan luas 2.500 meter persegi tiba-tiba terdiam. Saya berlari ke ruang turbin, berharap menemukan tukang listrik yang tersengat listrik. Tapi mereka dengan tenang memutuskan kabelnya. Saya berteriak bahwa pusat data menjadi offline, yang dijawab oleh teknisi listrik bahwa peralatan diaktifkan dalam mode bypass. aku mengulangi. Mereka berhenti, berpikir selama sepuluh detik, dan kemudian mata mereka terbuka sangat lebar, ” kata seorang saksi mata.

Butuh waktu 36 jam untuk memulihkan pusat data, meskipun pada awalnya teknisi listrik mengumumkan waktu henti per jam.

Kecelakaan paling terkenal di pusat data berbagai perusahaan dalam beberapa tahun terakhir dan penyebabnya