Bagaimana cara memutakhirkan peralatan jaringan di perusahaan besar tanpa menghentikan produksi ? Oleg Fedorov, Manajer Manajemen Proyek Linxdatacenter, berbicara tentang proyek berskala besar dalam mode operasi jantung terbuka .
Selama beberapa tahun terakhir, kami telah melihat peningkatan permintaan dari pelanggan untuk layanan yang terkait dengan komponen jaringan infrastruktur TI. Kebutuhan akan konektivitas sistem TI, layanan, aplikasi, pemantauan, dan manajemen operasional bisnis di hampir semua area memaksa perusahaan saat ini untuk lebih memperhatikan jaringan.
Rentang permintaan - mulai dari memberikan ketahanan jaringan hingga membuat dan mengelola sistem otonom klien dengan akuisisi blok alamat IP, mengonfigurasi protokol perutean, dan manajemen lalu lintas sesuai dengan kebijakan organisasi.
Ada juga permintaan yang terus meningkat akan solusi kompleks untuk pembangunan dan pemeliharaan infrastruktur jaringan, terutama dari pelanggan, yang infrastruktur jaringannya dibuat dari awal atau secara moral sudah ketinggalan zaman, yang memerlukan modifikasi serius.
Tren ini bertepatan dengan perkembangan dan komplikasi infrastruktur jaringan Linxdatacenter sendiri. Kami memperluas geografi kehadiran kami di Eropa dengan menghubungkan ke situs-situs terpencil, yang pada gilirannya memerlukan peningkatan infrastruktur jaringan.
Perusahaan telah meluncurkan layanan baru untuk klien, Network-as-a-Service: kami menangani semua tugas jaringan klien kami, memungkinkan mereka untuk fokus pada bisnis inti mereka.
Pada musim panas 2020, proyek besar pertama ke arah ini selesai, yang ingin saya bicarakan.
Di awal
Sebuah kompleks industri besar berpaling kepada kami untuk modernisasi bagian jaringan infrastruktur di salah satu perusahaannya. Itu diperlukan untuk mengganti peralatan lama dengan yang baru, termasuk inti jaringan.
Modernisasi terakhir peralatan di perusahaan terjadi sekitar 10 tahun yang lalu. Manajemen baru perusahaan memutuskan untuk meningkatkan konektivitas, dimulai dengan peningkatan infrastruktur pada tingkat fisik yang paling dasar.
Proyek ini dibagi menjadi dua bagian: peningkatan taman server dan peralatan jaringan. Kami bertanggung jawab untuk bagian kedua.
Persyaratan dasar untuk pekerjaan tersebut termasuk meminimalkan waktu henti lini produksi perusahaan selama pekerjaan (dan di beberapa area penghapusan total waktu henti). Setiap penghentian - kerugian finansial langsung dari klien, yang seharusnya tidak terjadi dalam keadaan apapun. Sehubungan dengan mode operasi fasilitas 24x7x365, serta mempertimbangkan tidak adanya periode waktu henti yang direncanakan dalam praktik perusahaan, kami sebenarnya ditugasi untuk melakukan operasi jantung terbuka. Ini menjadi ciri pembeda utama dari proyek tersebut.
Pergilah
Pekerjaan direncanakan sesuai dengan prinsip pergerakan dari node jaringan yang jauh dari inti ke yang terdekat, serta dari yang kurang mempengaruhi pengoperasian jalur produksi ke yang secara langsung mempengaruhi pekerjaan ini.
Misalnya, jika Anda mengambil node jaringan di departemen penjualan, maka gangguan komunikasi akibat pekerjaan di departemen ini tidak akan memengaruhi produksi dengan cara apa pun. Pada saat yang sama, insiden seperti itu akan membantu kami, sebagai kontraktor, untuk memeriksa kebenaran pendekatan yang dipilih untuk mengerjakan node tersebut dan, setelah menyesuaikan tindakan, mengerjakan tahap proyek selanjutnya.
Anda tidak hanya perlu mengganti node dan kabel di jaringan, tetapi juga untuk mengkonfigurasi semua komponen dengan benar untuk pengoperasian solusi yang benar secara keseluruhan. Itu adalah konfigurasi yang diperiksa dengan cara ini: memulai pekerjaan dari jarak jauh dari kernel, kami memberikan diri kami "hak untuk membuat kesalahan," tanpa membahayakan area kritis untuk operasi perusahaan.
Kami telah mengidentifikasi area yang tidak memengaruhi proses produksi, serta area kritis - bengkel, blok bongkar muat, gudang, dll. Di area utama, klien menyetujui waktu henti yang diizinkan untuk setiap node jaringan secara terpisah: dari 1 hingga 15 menit ... Tidak mungkin untuk sepenuhnya menghindari pemutusan node jaringan individu, karena kabel harus secara fisik dialihkan dari peralatan lama ke yang baru, dan dalam proses peralihan juga perlu untuk melepaskan "jenggot" kabel, yang terbentuk selama beberapa tahun operasi tanpa perawatan yang tepat (salah satu konsekuensi dari pekerjaan outsourcing pada pemasangan jalur kabel).
Pekerjaan itu dibagi menjadi beberapa tahap.
Tahap 1- Audit. Persiapan dan persetujuan pendekatan perencanaan kerja dan penilaian kesiapan tim: klien, kontraktor pelaksana pemasangan, dan tim kami.
Tahap 2 - Pengembangan format untuk melaksanakan pekerjaan, dengan analisis dan perencanaan rinci yang mendalam. Kami memilih format daftar periksa dengan indikasi yang tepat dari urutan dan urutan tindakan, hingga urutan pengalihan kabel patch oleh port.
Tahap 3 - Melakukan pekerjaan di lemari yang tidak mempengaruhi produksi. Estimasi dan penyesuaian waktu henti untuk tahap pekerjaan selanjutnya.
Tahap 4 - Melakukan pekerjaan di lemari yang secara langsung mempengaruhi produksi. Estimasi dan penyesuaian waktu henti untuk tahap akhir pekerjaan.
Tahap 5- Melaksanakan pekerjaan di ruang server untuk mengganti peralatan yang tersisa. Berjalan di perutean di kernel baru.
Tahap 6 - Peralihan berurutan inti sistem dari konfigurasi jaringan lama ke yang baru untuk kelancaran transisi dari seluruh kompleks sistem (VLAN, perutean, dll.). Pada tahap ini, kami menghubungkan semua pengguna dan mentransfer semua layanan ke peralatan baru, memeriksa kebenaran koneksi, memastikan bahwa tidak ada layanan perusahaan yang berhenti, memastikan bahwa jika ada masalah, mereka akan terhubung langsung ke kernel, yang memfasilitasi penghapusan kemungkinan pemecahan masalah dan pengaturan akhir.
Gaya rambut jenggot
Proyek ini juga menantang karena kondisi awal yang sulit.
Pertama, ini adalah sejumlah besar node dan bagian jaringan, dengan topologi yang rumit dan klasifikasi kabel sesuai dengan tujuannya. "Jenggot" seperti itu harus dikeluarkan dari lemari dan dengan susah payah "disisir", mencari tahu kabel mana yang mengarah dari mana dan ke mana.
Itu terlihat seperti ini:
Begitu:
atau seperti ini:
Kedua, untuk setiap tugas tersebut, perlu menyiapkan file yang menjelaskan prosesnya. "Kami mengambil kabel X dari port 1 peralatan lama, kami mencolokkannya ke port 18 peralatan baru." Kedengarannya sederhana, tetapi ketika Anda memiliki 48 port yang benar-benar tersumbat pada data awal, dan tidak ada opsi idle (kami ingat tentang 24x7x365), satu-satunya jalan keluar adalah bekerja di blok. Semakin banyak kabel yang dapat Anda tarik dari peralatan lama pada satu waktu, semakin cepat Anda dapat menyisirnya dan memasukkannya ke dalam perangkat keras jaringan baru, menghindari gangguan jaringan dan waktu henti.
Oleh karena itu, pada tahap persiapan, kami membagi jaringan menjadi beberapa blok - masing-masing dimiliki oleh VLAN tertentu. Setiap port (atau bagiannya) pada peralatan lama adalah salah satu VLAN dalam topologi jaringan baru. Kami telah mengelompokkannya sebagai berikut: port pertama dari sakelar terletak di jaringan pengguna, di jaringan produksi menengah, dan di titik akses terakhir dan tautan naik.
Pendekatan ini memungkinkan untuk mencabut dan menyisir peralatan lama, bukan 1 kabel, tetapi 10-15 kabel sekaligus. Ini mempercepat alur kerja beberapa kali.
Ngomong-ngomong, inilah tampilan kabel di lemari setelah disisir:
atau, misalnya, seperti ini:
Setelah tahap ke-2 selesai, kami beristirahat sejenak untuk menganalisis kesalahan dan dinamika proyek. Misalnya, kelemahan kecil segera muncul karena ketidakakuratan dalam diagram jaringan yang diberikan kepada kami (konektor yang salah pada diagram adalah kabel patch yang dibeli salah dan kebutuhan untuk menggantinya).
Jeda itu diperlukan, karena bahkan kegagalan kecil dalam proses tidak dapat diterima saat bekerja dari kanan server. Jika tujuannya adalah untuk memastikan waktu henti di bagian jaringan tidak lebih dari 5 menit, maka itu tidak dapat dilampaui. Setiap kemungkinan penyimpangan dari jadwal harus disetujui dengan klien.
Namun, perencanaan awal dan pembagian proyek menjadi blok-blok memungkinkan untuk memenuhi waktu henti yang direncanakan di semua area, dan dalam banyak kasus untuk melakukannya tanpa itu sama sekali.
Tantangan waktu - proyek di bawah COVID
Namun, ada beberapa komplikasi tambahan. Tentu saja, virus corona menjadi salah satu kendala.
Pekerjaan itu diperumit oleh fakta bahwa pandemi dimulai, dan tidak mungkin semua spesialis yang terlibat dalam proses tersebut hadir selama pekerjaan di lokasi klien. Hanya staf instalasi yang diizinkan masuk ke lokasi, dan kontrol dilakukan melalui ruangan di Zoom - ada insinyur jaringan dari Linxdatacenter, I, sebagai manajer proyek, insinyur jaringan di sisi klien yang bertanggung jawab atas produksi pekerjaan, dan tim yang melakukan pekerjaan instalasi.
Selama pekerjaan, masalah yang tidak ditemukan penyebabnya, dan perlu dilakukan penyesuaian dengan cepat. Jadi dimungkinkan untuk dengan cepat mencegah pengaruh faktor manusia (kesalahan dalam skema, kesalahan dalam menentukan status aktivitas antarmuka, dll.).
Meskipun format kerja jarak jauh tampak tidak biasa di awal proyek, kami dengan cepat beradaptasi dengan kondisi baru dan mencapai tahap akhir pekerjaan.
Kami menjalankan konfigurasi konfigurasi jaringan sementara untuk menjalankan dua inti jaringan secara paralel, yang lama dan yang baru, untuk memastikan transisi yang mulus. Namun, ternyata satu baris tambahan dari file konfigurasi kernel baru tidak dihapus, dan transisi tidak terjadi. Ini membuat kami meluangkan waktu untuk mencari masalah.
Ternyata lalu lintas utama ditransmisikan dengan benar, dan lalu lintas kontrol tidak mencapai node melalui inti baru. Berkat pembagian proyek yang jelas ke dalam tahapan, dimungkinkan untuk dengan cepat mengidentifikasi bagian jaringan di mana kesulitan muncul, mengidentifikasi masalah dan memperbaikinya.
Hasil dari
Hasil teknis dari proyek
Pertama-tama, inti baru dari jaringan perusahaan baru telah dibuat, di mana kami membangun cincin fisik / logis. Hal ini dilakukan sedemikian rupa sehingga setiap sakelar dalam jaringan memiliki "bahu kedua". Di jaringan lama, banyak switch yang terhubung ke inti melalui satu rute, satu bahu (uplink). Jika robek, sakelar menjadi tidak dapat diakses sama sekali. Dan jika beberapa sakelar dihubungkan melalui satu uplink, maka kecelakaan itu mematikan seluruh departemen atau lini produksi di perusahaan.
Dalam jaringan baru, bahkan insiden jaringan yang agak serius, dalam skenario apa pun, akan dapat "membunuh" seluruh jaringan atau bagian penting darinya.
90% dari semua peralatan jaringan telah diperbarui, konverter media (konverter media propagasi sinyal) telah dinonaktifkan, dan kebutuhan saluran listrik khusus untuk peralatan listrik telah dihilangkan dengan menghubungkan ke sakelar PoE, di mana daya disuplai melalui kabel Ethernet.
Juga, semua koneksi optik di ruang server dan di lemari di lapangan diberi tanda - di semua pusat komunikasi utama. Ini memungkinkan untuk menyiapkan diagram topologi peralatan dan koneksi dalam jaringan, yang mencerminkan keadaan aktualnya saat ini.
Diagram jaringan
Hasil terpenting dari sudut pandang teknis: pekerjaan infrastruktur berskala besar dilakukan dengan cepat, tanpa menimbulkan gangguan dalam pengoperasian perusahaan dan hampir tidak terlihat oleh personelnya.
Hasil bisnis dari proyek
Menurut pendapat saya, proyek ini menarik terutama bukan dari segi teknis, tetapi dari segi organisasi. Kesulitannya terutama dalam merencanakan dan memikirkan langkah-langkah untuk melaksanakan tugas proyek.
Keberhasilan proyek memungkinkan kami untuk mengatakan bahwa inisiatif kami untuk mengembangkan arah jaringan dalam portofolio layanan Linxdatacenter adalah pilihan vektor yang tepat untuk pengembangan perusahaan. Pendekatan yang bertanggung jawab terhadap manajemen proyek, strategi yang kompeten, perencanaan yang jelas memungkinkan kami untuk melakukan pekerjaan di tingkat yang tepat.
Konfirmasi kualitas pekerjaan - permintaan dari klien untuk melanjutkan penyediaan layanan modernisasi jaringan di situs lain di Rusia.