👩🏿‍🎓 👨🏽‍✈️ 📳 Pembelajaran Penguatan dan Analisis Heuristik pada Sakelar Pusat Data: Prasyarat dan Manfaat 🖱️ ⚔️ 🛃

Sebelum konferensi AI Journey, yang didukung Huawei sebagai mitra tituler dan di mana beberapa pembicara kami akan berbicara, kami memutuskan untuk berbagi informasi awal tentang perkembangan kami, dan khususnya tentang bagaimana kami menggunakan kecerdasan buatan dalam jaringan pusat data pintar. Dan pada saat yang sama untuk menjelaskan mengapa teknologi yang sudah mapan tidak cukup untuk membangun jaringan pusat data modern dan kami membutuhkan "bantuan ramah" dari AI.

Apa yang terjadi di bidang jaringan tanpa kerugian bersyarat

Selama bertahun-tahun, ketika media transmisi data mengalami perkembangan pesat, para insinyur berhasil menghadapi banyak fenomena yang menghambat keberhasilan implementasi jaringan penyimpanan dan cluster komputasi berkinerja tinggi pada Ethernet: kerugian, pengiriman informasi yang tidak dijamin, kebuntuan, ledakan mikro, dan hal-hal tidak menyenangkan lainnya.

Akibatnya, dianggap benar untuk membangun jaringan khusus referensi untuk skenario tertentu:

IB untuk cluster komputasi beban tinggi;
FC untuk jaringan penyimpanan klasik;
Ethernet untuk tugas servis.

Upaya untuk mencapai keserbagunaan tampak seperti ilustrasi.

Untuk beberapa tugas, vektor dapat bertepatan (mirip dengan angsa dan udang karang), dan keserbagunaan situasional tercapai, meskipun dengan efisiensi yang lebih rendah daripada saat memilih skenario yang sangat terspesialisasi.

Saat ini, Huawei melihat masa depan dalam multitasking pabrik yang terkonvergensi dan menawarkan pelanggannya solusi AI Fabric yang dirancang, di satu sisi, untuk skenario peningkatan kinerja jaringan tanpa kerugian (hingga 200 Gbps per port server pada tahun 2020), di sisi lain, untuk meningkatkan kinerja jaringan. aplikasi (migrasi ke RoCEv2).

Ngomong-ngomong, kami memiliki postingan mendetail terpisah tentang komponen teknis AI Fabric .

Apa yang membutuhkan pengoptimalan

Sebelum berbicara tentang algoritme, masuk akal untuk mengklarifikasi apa yang sebenarnya dirancang untuk ditingkatkan.

ECN statis mengarah pada fakta bahwa dengan peningkatan jumlah server pengirim dengan satu penerima, pola lalu lintas suboptimal muncul (secara halus, kita berurusan dengan apa yang disebut model incast banyak-ke-satu).

Dalam Ethernet tradisional , kita harus secara manual menyeimbangkan kemungkinan kehilangan pada jaringan dan kinerja buruk jaringan itu sendiri.

Kami juga akan melihat prasyarat yang sama saat menggunakan bundel PFC / ECN dalam kasus implementasi tanpa penyetelan konstan (lihat gambar di bawah).

Untuk mengatasi masalah yang dijelaskan, kami menggunakan algoritma AI ECN, yang intinya adalah mengubah ambang ECN tepat waktu. Tampilannya ditunjukkan pada diagram di bawah ini.

Sebelumnya, saat kami menggunakan bundel prosesor Broadcom chipset + Ascend 310 AI, kami memiliki sejumlah opsi terbatas untuk menyetel parameter ini.

Kami dapat secara kondisional memanggil varian seperti Software AI ECN, karena logikanya dilakukan pada chip terpisah dan sudah "ditumpahkan" ke dalam chipset komersial.

Model yang dilengkapi dengan chipset Huawei P5 memiliki "kemampuan AI" yang jauh lebih luas (terutama pada rilis terbaru), karena fakta bahwa ia mengimplementasikan sebagian besar fungsi yang diperlukan untuk ini.

Bagaimana kami menggunakan algoritma

Dengan menggunakan Ascend 310 (atau modul internal P-card), kami mulai menganalisis lalu lintas dan membandingkannya dengan tolok ukur aplikasi yang dikenal.

Dalam kasus aplikasi yang dikenal, indikator lalu lintas dioptimalkan dengan cepat, dalam kasus aplikasi yang tidak dikenal, transisi ke langkah berikutnya berlangsung.

Poin utama:

Pembelajaran penguatan DDQN, eksplorasi, akumulasi banyak konfigurasi baseline, dan eksplorasi strategi kepatuhan ECN terbaik dilakukan.
Pengklasifikasi CNN mengidentifikasi skenario dan menentukan apakah ambang DDQN yang direkomendasikan dapat diandalkan.
Jika ambang batas DDQN yang disarankan tidak dapat diandalkan, metode heuristik digunakan untuk memperbaikinya guna memastikan bahwa solusi digeneralisasikan.

Pendekatan ini memungkinkan Anda menyesuaikan mekanisme untuk bekerja dengan aplikasi yang tidak dikenal, dan jika Anda benar-benar menginginkannya, Anda dapat menyetel model untuk aplikasi Anda menggunakan Northbound API ke sistem pengelolaan sakelar.

Poin utama:

DDQN mengakumulasi sejumlah besar sampel memori konfigurasi dasar dan secara mendalam memeriksa keadaan jaringan dan logika rekonsiliasi konfigurasi dasar untuk mempelajari kebijakan.
Pengklasifikasi Jaringan Neural CNN mengidentifikasi skenario untuk menghindari risiko yang dapat muncul ketika konfigurasi ECN yang tidak dapat diandalkan direkomendasikan dalam skenario yang tidak diketahui.

Apa yang kita dapatkan

Setelah siklus adaptasi seperti itu dan mengubah ambang batas dan pengaturan jaringan tambahan, menjadi mungkin untuk menyingkirkan beberapa jenis masalah sekaligus.

Masalah kinerja: bandwidth rendah, latensi panjang, kehilangan paket, jitter.
Masalah PFC: PFC kebuntuan, HOL, badai, dll. Teknologi PFC menyebabkan banyak masalah tingkat sistem.
Tantangan Aplikasi RDMA: AI / Komputasi Kinerja Tinggi, Penyimpanan Terdistribusi, dan Kombinasi. Aplikasi RDMA sensitif terhadap kinerja jaringan.

Ringkasan

Pada akhirnya, algoritme pembelajaran mesin tambahan membantu kami memecahkan masalah klasik dari lingkungan jaringan Ethernet yang "tidak responsif". Dengan demikian, kami selangkah lebih dekat ke ekosistem layanan jaringan ujung-ke-ujung yang transparan dan nyaman - sebagai lawan dari serangkaian teknologi dan produk yang berbeda.

***

Solusi Huawei terus muncul di perpustakaan online kami . Termasuk pada topik yang dibahas dalam posting ini (misalnya, sebelum membangun solusi AI ukuran penuh untuk berbagai skenario pusat data "pintar"). Anda dapat menemukan daftar webinar kami untuk beberapa minggu mendatang di sini .

Pembelajaran Penguatan dan Analisis Heuristik pada Sakelar Pusat Data: Prasyarat dan Manfaat

Apa yang terjadi di bidang jaringan tanpa kerugian bersyarat

Apa yang membutuhkan pengoptimalan

Bagaimana kami menggunakan algoritma

Apa yang kita dapatkan

Ringkasan

***

More articles: