Penyebab kecelakaan pada 30 Agustus, saat lalu lintas global turun 3,5%

Kerusakan Internet global terjadi karena kesalahan penyedia CenturyLink Amerika. Karena konfigurasi firewall yang salah, pengguna di seluruh dunia mengalami masalah saat mengakses Google, layanan Microsoft, layanan cloud Amazon, layanan microblogging Twitter, Discord, layanan Electronic Arts, Blizzard, Steam, situs web Reddit, dan banyak lagi.







Alasan kegagalan itu karena CenturyLink, sebagai provider Level3, salah merumuskan aturan BGPFlowspec dalam protokol keamanan. BGP Flowspec digunakan untuk mengarahkan lalu lintas, jadi kesalahan ini menyebabkan masalah serius dengan perutean dalam jaringan penyedia, yang mempengaruhi stabilitas Internet global. Tentu saja, pengguna di AS yang paling terpukul, tetapi gaung masalah tersebut dirasakan di seluruh dunia.



Penting untuk dicatat bahwa CenturyLink adalah perusahaan telekomunikasi terbesar ketiga di Amerika, tepat di belakang AT&T dan Verizon.



BGP Flowspec oleh IETF adalah RFC 5575 dan dijelaskan sebagai ekstensi multi-protokol ke BGP MP-BGP yang berisi jangkauan Informasi Jangkauan Jaringan Lapisan (NLRI) . BGP FlowSpec adalah metode alternatif untuk membuang lalu lintas DDoS yang menyerang dari sebuah rute, yang dianggap sebagai cara yang lebih halus untuk menghindari serangan daripada RTBH (Penyaringan Lubang Hitam Terpicu Jarak Jauh) , ketika semua lalu lintas dari alamat serangan, atau lalu lintas ke alamat tujuan, diblokir. Secara umum, RTBH adalah "senjata kiamat" dan merupakan upaya terakhir untuk menghentikan serangan, karena penggunaannya sering kali memungkinkan penyerang mencapai apa yang diinginkannya, yaitu mengisolasi salah satu alamat.



BGP FlowSpec lebih halus dan pada dasarnya adalah filter firewall yang dimasukkan ke dalam BGP untuk memfilter port dan protokol tertentu serta menentukan lalu lintas mana yang akan dilewati rute mana. Jadi, lalu lintas "putih" pergi ke alamat tujuan, dan didefinisikan sebagai DDoS - dihapus dari rute. Lalu lintas dianalisis oleh setidaknya 12 parameter NLRI:



  1. Awalan Tujuan. Menentukan prefiks tujuan untuk pertandingan.
  2. Awalan Sumber. Menentukan prefiks asli.
  3. Protokol IP. Berisi sekumpulan pasangan {operator, value} yang digunakan untuk memetakan byte nilai IP dalam paket IP.
  4. Pelabuhan. Menentukan apakah paket akan diproses oleh TCP, UDP, atau keduanya.
  5. . , FlowSpec.
  6. . , FlowSpec.
  7. ICMP.
  8. ICMP.
  9. TCP.
  10. . IP- ( 2, IP-).
  11. DSCP. Class Of Service flag.
  12. Fragment Encoding


Tidak ada laporan kerusakan lengkap dari CenturyLink sendiri, mereka hanya menyebutkan pusat data mereka di dekat Ontario. Namun, kegagalan perutean cukup serius untuk diperhatikan tidak hanya oleh pengguna biasa, tetapi juga oleh insinyur CloudFlare, yang juga menggunakan layanan CenturyLink sebagai penyedia besar.



Semuanya dimulai dengan lonjakan 522 kesalahan pada 10:03 GMT pada 30 Agustus, menurut laporan CloudFlare .







Misalnya, sistem perutean ulang kegagalan otomatis dapat mengurangi jumlah kesalahan dan menguranginya hingga 25% dari nilai puncak, tetapi masalah dengan konektivitas jaringan dan ketersediaan sumber daya masih ada dan bersifat global. Semua ini dilakukan di jendela antara pukul 10:03 saat dimulainya kerusakan dan hingga pukul 10:11 UTC. Selama delapan menit ini, otomatisasi dan insinyur memutus infrastruktur mereka dari CenturyLink di 48 kota (!) Amerika Utara dan mengalihkan lalu lintas ke saluran cadangan penyedia lain.



Jelas, ini tidak hanya dilakukan di CloudFlare. Namun, ini tidak sepenuhnya menyelesaikan masalah. Untuk kejelasan, apa pengaruh penyedia bermasalah terhadap pasar telekomunikasi Amerika Serikat dan Kanada, teknisi perusahaan memberikan peta resmi ketersediaan layanan CenturyLink:







Di AS, penyedia digunakan oleh 49 juta orang, yang berarti bahwa untuk beberapa pelanggan, jika kita berbicara tentang laporan CloudFlare, dan bahkan seluruh pusat data, CenturyLink adalah satu-satunya penyedia yang tersedia.



Akibatnya, karena CenturyLink hampir jatuh, spesialis CloudFlare mencatat 3,5% pengurangan lalu lintas Internet global. Inilah yang tampak seperti pada grafik untuk enam penyedia utama tempat perusahaan bekerja. CenturyLink berwarna merah di atasnya.







Fakta bahwa kegagalan itu bersifat global, dan bukan hanya "masalah di pusat data di luar Ontario", seperti yang dikatakan penyedia itu sendiri, dibuktikan dengan ukuran pembaruan pada aturan Flowspec. Biasanya, ukuran pembaruan konfigurasi BGP Flowspec adalah sekitar 2 megabyte, tetapi ahli CloudFlare mencatat pembaruan konfigurasi BGP hingga 26 MB (!).







Pembaruan ini, yang didistribusikan setiap 15 menit, berbagi informasi dengan tuan rumah tentang perubahan kesehatan rute. Ini memungkinkan Anda merespons beberapa masalah lokal secara fleksibel. Pembaruan 10-15 kali lebih besar dari biasanya menunjukkan bahwa hampir seluruh jaringan penyedia tidak aktif atau ada masalah konektivitas yang sangat serius.



CloudFlare percaya bahwa kegagalan tersebut disebabkan oleh aturan Flowspec BGP global yang salah, yang menerima sebagian besar router, yang kemudian melakukan booting ulang terbalik dalam upaya memulihkan koneksi. Ini sesuai dengan gambaran kecelakaan yang berlangsung lebih dari 4 jam. Itu terjadi ketika memori dan CPU yang berlebihan pada router dapat menyebabkan insinyur kehilangan akses jarak jauh ke sejumlah node dan antarmuka kontrol.



Ngomong-ngomong, cerita ini jauh dari unik. Sedikit lebih dari setahun yang lalu, Internet di seluruh dunia "berbaring" karena kesalahan CloudFlare sendiri dan kegagalan DNS mereka , ditambah perusahaan yang sama dengan jujur ​​menyebutkan masalah serupa dengan Flowspec tujuh tahun lalu , setelah itu mereka meninggalkan penggunaannya.



All Articles