Kecerdasan Buatan di Jaringan Pusat Data: Pengalaman Huawei

Mengikuti jejak pembicaraan saya di konferensi AI Journey pada 4 Desember, saya ingin memberi tahu Anda bagaimana penerapan sistem AI yang benar dalam manajemen jaringan memungkinkan Anda membangun pusat data modern berdasarkan solusi Huawei tanpa hambatan dan tanpa kehilangan paket. Manfaat dari solusi tersebut sangat terbukti ketika penyimpanan All-Flash digunakan di pusat data, jaringan saraf terlatih, atau komputasi GPU berkinerja tinggi dilakukan.











Transformasi pusat data



Pusat data berubah secara konseptual, dan berubah secara dramatis. Tren ini menjadi relatif meluas sekitar sepuluh tahun yang lalu, tetapi, katakanlah, di sektor perbankan, itu dimulai jauh lebih awal. Terlepas dari jalan yang dipilih, tujuan transformasi kurang lebih sama - penyatuan dan konsolidasi sumber daya.



Ini adalah langkah pertama, diikuti dengan peningkatan lebih lanjut dari efisiensi pusat data melalui otomatisasi, orkestrasi, dan transisi ke mode cloud hybrid. Dan batas transformasi terjauh yang bisa dicapai saat ini adalah pengenalan sistem kecerdasan buatan.







Solusi Huawei untuk setiap tahap transformasi



Di setiap tahap, bergantung pada "kematangan TI" pelanggan, Huawei menawarkan solusi sendiri yang dirancang untuk memberikan hasil modernisasi terbaik tanpa biaya yang tidak perlu. Hari ini saya ingin berbicara lebih detail tentang "icing on the cake" - sistem AI di pusat data modern.







Untuk menggambarkan analogi dengan tubuh manusia, sakelar jaringan pusat data bertindak sebagai sistem peredaran darah, menyediakan konektivitas antara berbagai komponen: node komputasi, sistem penyimpanan data, dll.



Beberapa tahun yang lalu, teknologi penyimpanan SSD tersedia secara luas, dan kinerja CPU terus berkembang. Dengan ini, penyimpanan dan node komputasi tidak lagi menjadi penyebab utama latensi. Tetapi jaringan pusat data telah lama tetap dalam struktur pusat data sebagai semacam "adik kecil".



Pabrikan telah mencoba menyelesaikan masalah dengan berbagai cara. Seseorang memilih teknologi InfiniBand (IB) berlisensi untuk membangun jaringan . Jaringan tersebut ternyata terspesialisasi dan hanya mampu menyelesaikan tugas-tugas kecil. Seseorang lebih suka membangun pabrik jaringan menggunakan protokol Fibre Channel(FC). Kedua pendekatan memiliki keterbatasan: baik bandwidth jaringan ternyata relatif sederhana, atau total biaya solusi dibatasi, yang selanjutnya diperparah oleh ketergantungan pada satu vendor.



Perusahaan kami menggunakan teknologi terbuka. Solusi Huawei didasarkan pada pengerjaan dengan versi kedua RoCE , yang kemampuannya telah diperluas melalui penggunaan algoritme berlisensi tambahan di sakelar kami. Ini memungkinkan kami untuk secara serius mengoptimalkan kemampuan jaringan.







Mengapa kita tidak melihat masa depan di balik solusi FC klasik? Intinya adalah bahwa mereka bekerja berdasarkan prinsip alokasi kredit statis, yang memerlukan konfigurasi jaringan jaringan sesuai dengan kebutuhan aplikasi Anda untuk waktu yang terbatas.



Baru-baru ini FC telah mengambil langkah maju menuju jaringan penyimpanan mandiri, tetapi terus membawa batasan kinerja. Sekarang arus utama - teknologi generasi keenam, yang memungkinkan untuk mencapai throughput 32 Gbps, solusi 64 Gbps mulai diterapkan. Pada saat yang sama, dengan bantuan Ethernet, hari ini, dengan menggunakan tabel prioritas, kita bisa mendapatkan 100, 200 dan bahkan 400 Gbit / s ke server.







Nilai tambah dari jaringan pusat data sangat penting di dunia di mana hard disk solid-state dengan antarmuka berkecepatan tinggi memperoleh lebih banyak pangsa pasar, menggantikan hard disk spindel klasik. Huawei berkomitmen untuk memungkinkan penyimpanan SSD mencapai potensi penuhnya.







Jaringan Pusat Data Generasi Berikutnya



Contoh kecil bagaimana kami melakukannya. Dalam diagram menunjukkan salah satu sistem penyimpanan kami, yang dikenal sebagai yang tercepat di dunia. Yang ditunjukkan di sini adalah server berbasis x86 atau ARM kami, memberikan kinerja yang memenuhi harapan klien yang sangat menuntut. Di pusat data, berdasarkan solusi ini, kami berhasil mencapai latensi ujung- ke- ujung tidak lebih dari 0,1 md. Penggunaan teknologi aplikasi baru membantu kami mendapatkan hasil seperti itu.



Teknologi klasik yang digunakan dalam sistem penyimpanan dibatasi, khususnya, oleh latensi yang agak tinggi yang disebabkan oleh bus SAS. Pindah ke protokol baru seperti NVMe secara signifikan meningkatkan parameter ini, dan pada saat yang sama jaringan itu sendiri menjadi faktor pembatas dalam kinerja.







Pertimbangkan, dalam contoh yang sama, penggunaan jaringan dengan algoritme berlisensi tambahan. Mereka mengoptimalkan latensi ujung ke ujung, secara dramatis meningkatkan throughput jaringan, dan meningkatkan operasi I / O per satuan waktu. Pendekatan ini membantu untuk menghindari "pembelian ganda", kadang-kadang diperlukan untuk mencapai parameter kinerja yang diperlukan, dan total penghematan (dalam hal TCO) saat memperkenalkan jaringan baru mencapai 18-40%, tergantung pada model peralatan yang digunakan.







Apa algoritma wow ini?



Teknologi konvensional membawa serta masalah yang biasa terjadi, karena mereka bekerja dengan ambang antrian statis. Ambang batas ini berarti ada hubungan dasar antara kecepatan dan latensi untuk semua aplikasi. Mode kontrol manual tidak memungkinkan penyesuaian dinamis dari parameter jaringan.



Dengan menggunakan chipset pembelajaran mesin tambahan di sakelar, kami mengajarkan jaringan untuk beroperasi dalam mode yang memungkinkan membangun jaringan pusat data cerdas tanpa kehilangan paket (kami menyebutnya iDCN ).







Bagaimana pengoptimalan cerdas dicapai? Mereka yang terlibat dalam jaringan saraf akan dengan mudah menemukan elemen yang sudah dikenal dan mekanisme pelatihan / inferensi pada diagram. Kehadiran model yang disematkan dalam solusi kami dikombinasikan dengan kemampuan untuk belajar di jaringan tertentu.







Sistem AI mengakumulasi sejumlah pengetahuan tentang jaringan, yang kemudian diperkirakan dan digunakan dalam konfigurasi dinamis jaringan. Perangkat berdasarkan solusi perangkat keras kami sendiri menggunakan chip AI khusus. Model yang dibangun di atas chipset berlisensi dari pabrikan Amerika menggunakan modul add-on dan bus perangkat lunak.







Tentang model yang diterapkan. Kami menggunakan pendekatan yang mengandalkan model pembelajaran penguatan. Sistem menganalisis 100% data yang melewati perangkat jaringan dan memilih baseline. Jika, misalnya, Anda mengetahui bandwidth dan penundaan yang penting untuk aplikasi tertentu, tidaklah sulit untuk menentukan baseline. Dengan sejumlah besar aplikasi, dimungkinkan untuk melakukan penghitungan "median" dan membuat penyesuaian dalam mode otomatis, yang secara signifikan meningkatkan kinerja.







Diagram menunjukkan prosesnya secara lebih rinci. Pada awal pengoptimalan jaringan, kami menghitung nilai ambang batas - minimum dan maksimum. Berikutnya adalah jaringan saraf konvolusional(CNN). Dengan demikian, dimungkinkan untuk menyamakan kecepatan bandwidth dan latensi untuk setiap aplikasi, serta menentukan "bobot" totalnya dalam layanan jaringan. Dengan menggunakan pendekatan bertingkat ini, kami mendapatkan beberapa wawasan yang sangat menarik.







Jika aplikasinya tidak diketahui, algoritme penelusuran heuristik digunakan bersama dengan " mesin status ". Dengan bantuannya, kami mulai bergerak berlawanan arah jarum jam di sepanjang diagram blok yang ditunjukkan di atas, mengidentifikasi nilai ambang batas dan membangun model. Ini adalah proses otomatis yang dapat dimanipulasi sesuai kebutuhan. Jika ini tidak diperlukan, lebih mudah untuk mengandalkan sakelar dan layanannya.







Dari teori ke praktek



Dengan menerapkan algoritme semacam itu dan bekerja pada level seluruh jaringan, dan bukan bagian individualnya, kami menyelesaikan semua masalah kinerja utama. Sudah ada kasus yang menarik dari implementasi dan penggunaan teknologi semacam itu di sektor perbankan. Mekanisme ini diminati di industri lain, misalnya di antara operator telekomunikasi.







Mari kita lihat hasil tes terbuka. Lab independen Tolly Group telah menguji solusi kami dan membandingkannya dengan solusi Ethernet dan IB dari produsen lain. Pengujian telah menunjukkan bahwa kinerja produk Huawei setara dengan IB dan 27% lebih baik daripada produk Ethernet pabrikan besar lainnya.







Jaringan pusat data lossless menunjukkan efisiensi maksimum dalam beberapa skenario, seperti:



  • Pelatihan AI;
  • penyimpanan terpusat;
  • penyimpanan terdistribusi;
  • komputasi GPU kinerja tinggi.








Sebagai kesimpulan, kami akan mempertimbangkan salah satu skenario untuk menggunakan jaringan pusat data cerdas. Banyak pelanggan menggunakan sistem penyimpanan terdistribusi (SDS). Dengan mengintegrasikan sistem penyimpanan perangkat lunak dari berbagai produsen dengan bantuan solusi kami, Anda dapat mencapai kinerja 40% lebih tinggi daripada tanpa itu. Ini berarti bahwa ketika Anda mengetahui tingkat kinerja yang diperlukan dari SDS Anda, Anda dapat mencapainya dengan server yang 40% lebih sedikit.



***



Omong-omong, jangan lupakan berbagai webinar kami yang diadakan tidak hanya di segmen berbahasa Rusia, tetapi juga di tingkat global. Daftar webinar untuk Desember tersedia di sini .



All Articles