🚴🏾 🤰🏽 👲 Membangun arsitektur umum untuk komputasi kinerja tinggi, kecerdasan buatan, dan analitik data 🐝 😓 🌼

Saat ini, komputasi berkinerja tinggi ( HPC ), kecerdasan buatan ( AI ), dan analisis data ( DA ) semakin tumpang tindih. Intinya adalah menyelesaikan masalah yang kompleks membutuhkan kombinasi teknik yang berbeda. Kombinasi AI, HPC, dan DA dalam proses manufaktur tradisional dapat mempercepat penemuan dan inovasi ilmiah.

Ilmuwan dan peneliti data sedang mengembangkan proses pemecahan masalah intensif komputasi baru seperti sistem HPC dalam skala besar. Beban kerja AI dan analitik data memanfaatkan infrastruktur HPC yang berskala untuk meningkatkan kinerja. Hari ini kita akan berbicara tentang tren di pasar ini dan pendekatan untuk membuat arsitektur untuk DA, AI, dan HPC yang sedang dalam proses.

Tren ke arah konvergensi beban kerja modern membutuhkan arsitektur yang lebih terpadu. Beban kerja HPC tradisional (seperti simulasi) membutuhkan banyak daya komputasi, serta koneksi jaringan yang cepat dan sistem file berperforma tinggi. Misalnya, pembuatan model reservoir untuk deposit mineral dapat memakan waktu beberapa jam hingga beberapa hari.

Beban kerja kecerdasan buatan dan analitik data membutuhkan banyak sumber daya, membutuhkan alat pengumpulan data dan ruang kerja khusus bagi operator untuk memproses data. Kecerdasan buatan dan analitik data adalah proses yang membutuhkan interaksi interaktif dan tindakan berulang.

Perbedaan beban kerja HPC, AI dan DA mungkin memberi kesan bahwa mereka akan membutuhkan tiga infrastruktur terpisah, tetapi tidak demikian. Arsitektur terpadu cocok untuk analis data dan ilmuwan yang bekerja dengan kecerdasan buatan, tanpa melatih ulang dan beradaptasi dengan model operasi baru.

Namun, mengintegrasikan ketiga beban kerja pada satu arsitektur memang menimbulkan tantangan untuk dipertimbangkan:

Keterampilan pengguna HPC, AI, atau DA bervariasi.
Sistem manajemen sumber daya dan perencana beban tidak dapat dipertukarkan.
Tidak semua perangkat lunak dan tidak semua kerangka kerja terintegrasi ke dalam satu platform.
Ekosistem membutuhkan alat dan fungsi yang berbeda.
Beban dan persyaratan kinerjanya berbeda.

Landasan solusi siap pakai Dell Technologies

Solusi AI dan analitik data Dell Technologies menyediakan lingkungan tunggal untuk ketiga beban kerja. Mereka dibangun dengan mempertimbangkan empat prinsip dasar:

Ketersediaan data.
Penjadwalan pekerjaan sederhana dan manajemen sumber daya.
Mengoptimalkan beban kerja.
Orkestrasi dan containerisasi terintegrasi.

Ketersediaan data

Pengguna memerlukan akses cepat ke datanya terlepas dari beban kerjanya. Perpindahan data harus dibatasi antara lingkungan penyimpanan yang berbeda. Set data untuk HPC, AI, dan DA harus digabungkan menjadi satu lingkungan untuk meningkatkan efisiensi operasional, terutama jika alur kerja menggabungkan beberapa teknik.

Misalnya, sistem bantuan pengemudi tingkat lanjut menggunakan model cuaca ekstrem untuk mencegah kecelakaan dalam berkendara di kehidupan nyata dalam cuaca buruk. Data baru tersebut kemudian digunakan untuk melatih jaringan saraf dalam: keluarannya menjadi masukan untuk melatih model. Hasilnya kemudian dimuat ke Spark, yang digunakan untuk menghubungkan ke set data pelanggan saat ini dan memilih data terbaik untuk pelatihan model selanjutnya. Untuk kinerja terbaik, data yang diterima dari alur kerja harus sedekat mungkin dengan data yang sudah tersedia.

Penjadwalan pekerjaan dan manajemen sumber daya

Konsumen HPC mengandalkan penjadwal pekerjaan tradisional seperti SLURM. Untuk penjadwalan batch, SLURM mengalokasikan sumber daya perangkat keras berdasarkan interval waktu dan menyediakan kerangka kerja untuk memulai, menjalankan, dan mengontrol pekerjaan yang sedang berjalan. SLURM juga menyediakan manajemen antrian untuk tiket yang dikirimkan untuk menghindari perselisihan antar tugas di cluster.

Analisis data menggunakan penjadwal tugas seperti Spark Standalone dan Mesos. Arsitektur yang dibuat sebelumnya untuk komputasi kinerja tinggi dan kecerdasan buatan menggunakan Kubernetes untuk mengatur Spark dan mengelola sumber daya untuk tugas yang sedang dilakukan. Karena tidak ada penjadwal pekerjaan yang menangani kedua lingkungan tersebut, arsitektur harus mendukung keduanya. Dell Technologies telah mengembangkan arsitektur yang memenuhi kedua persyaratan tersebut.

Arsitektur turnkey Dell EMC untuk HPC, analitik data, dan AI menciptakan satu kumpulan sumber daya. Resource dapat secara dinamis ditetapkan ke tugas HPC apa pun yang dikelola melalui HPC Resource Manager atau untuk AI dalam container atau beban kerja analitik data yang kemudian dikelola dari sistem container Kubernetes.

Mengoptimalkan beban kerja

Arsitektur harus mampu menskalakan satu jenis beban kerja tanpa mengorbankan jenis lain. Bahasa pemrograman, kebutuhan penskalaan, dan pengelolaan tumpukan perangkat lunak dan sistem file penting dalam memahami persyaratan beban kerja. Tabel di bawah ini menunjukkan contoh teknologi yang digunakan saat membangun arsitektur yang dapat diskalakan:

Komponen desain terakhir adalah integrasi Kubernetes dan Docker ke dalam arsitektur Kubernetes, sistem containerisasi open source yang digunakan untuk mengotomatiskan penerapan, penskalaan, dan manajemen. Kubernetes membantu Anda mengatur cluster server dan menjadwalkan container berdasarkan resource yang tersedia dan kebutuhan resource setiap container. Container diatur ke dalam beberapa grup, unit operasi dasar Kubernetes, yang menyesuaikan dengan ukuran yang diinginkan.

Kubernetes membantu mengelola layanan penemuan, yang mencakup load balancing, pelacakan alokasi sumber daya, pemanfaatan, dan health check sumber daya individu. Hal ini memungkinkan aplikasi memulihkan diri dengan memulai ulang atau menyalin kontainer secara otomatis.

Docker adalah platform perangkat lunak yang memungkinkan Anda membuat, menguji, dan menerapkan produk perangkat lunak dengan cepat. Ini mengemas program ke dalam modul standar yang disebut kontainer, yang memiliki semua yang Anda butuhkan untuk menjalankan program, termasuk pustaka, alat sistem, kode, dan kondisi untuk pelaksanaannya. Dengan Docker, Anda dapat dengan cepat menerapkan dan menskalakan aplikasi di lingkungan apa pun dan memastikan kode Anda akan berjalan.

Blok arsitektur perangkat keras

Memilih server yang tepat

Dell EMC PowerEdge DSS 8440 adalah server 2 soket (4U) yang dioptimalkan untuk HPC. Satu DSS 8440 dapat menampung 4, 8 atau 10 akselerator grafis NVIDIA V100 untuk pengenalan gambar atau NVIDIA T4 untuk pemrosesan bahasa alami (NLP). Sepuluh hard disk NVMe menyediakan akses cepat ke data pelatihan. Server ini memiliki performa dan fleksibilitas yang ideal untuk pembelajaran mesin serta beban kerja intensif sumber daya lainnya. Misalnya, pemodelan dan analisis prediktif dalam lingkungan teknik dan ilmiah.

Dell EMC PowerEdge C4140memenuhi kebutuhan akan solusi server terukur yang diperlukan untuk melatih jaringan neural. Pembelajaran mendalam adalah proses intensif komputasi, termasuk GPU cepat, terutama selama fase pembelajaran. Setiap server C4140 mendukung hingga empat GPU NVIDIA Tesla V100 (Volta). Terhubung melalui pabrik NVIDIA NVLINK 20, delapan atau lebih C4140 dapat dikelompokkan untuk model yang lebih besar, memberikan kinerja hingga 500 Pflop.

Dell EMC PowerEdge R740xdAdalah server 2 soket klasik yang cocok untuk sebagian besar proyek pembelajaran mesin. Server 2U serba guna ini memiliki prospek untuk digunakan lebih lanjut untuk tugas pembelajaran mendalam, karena mendukung pemasangan akselerator grafis dan sejumlah besar perangkat penyimpanan.

Memilih jaringan yang tepat

Dell EMC PowerSwitch S5232F-ON: Ethernet Kinerja Tinggi Dell EMC S5235F-ON S5235F-ON memiliki 32 port QSFP28 yang masing-masing mendukung 100 GbE atau 10/25/40/50 GbE menggunakan kabel terpisah. Bus sakelar memiliki bandwidth 64 Tbps, memberikan kinerja tinggi dengan latensi rendah.

Mellanox SB7800 adalah solusi yang tepat untuk banyak beban kerja secara bersamaan. Bus 72 Tbit / dtk tanpa pemblokiran berperforma tinggi dengan latensi 90 ns di antara dua titik pengalihan mana pun memberikan solusi berkinerja tinggi.

Layanan dan sistem penyimpanan

Memilih layanan penyimpanan yang tepat

Pilihan komponen perangkat keras tergantung pada masalah yang diselesaikan dan perangkat lunak yang digunakan. Secara bersyarat, subsistem penyimpanan data dapat dibagi menjadi tiga jenis:

Layanan penyimpanan dibangun ke dalam perangkat lunak dan merupakan bagian integral darinya. Contohnya adalah Apache Hadoop dengan sistem file HDFS, atau database Tanpa SQL Apache Cassandra.
Layanan penyimpanan disediakan baik oleh solusi khusus (misalnya, Dell EMC PowerScale) atau oleh sistem penyimpanan perusahaan.
Akses ke sumber daya cloud: baik Dell EMC ECS pribadi, Cloudian, Ceph, dan publik - Amazon, Google, MS Azure. Akses data, sebagai aturan, dilakukan berdasarkan protokol REST - Amazon S3, Openstack Swift, dll. Ini adalah salah satu segmen pasar penyimpanan Big Data yang paling aktif berkembang.

Pendekatan gabungan dapat dibedakan, ketika layanan penyimpanan internal atau sistem khusus digunakan sebagai lapisan penyimpanan operasional, dan sistem cloud bertindak sebagai penyimpanan arsip jangka panjang. Penggunaan layanan penyimpanan tertentu bergantung pada tugas yang diselesaikan dan persyaratan peraturan (perlindungan terhadap bencana, integrasi dengan otorisasi dan penyedia audit, kegunaan).

Di satu sisi, layanan penyimpanan internal, jika tersedia dalam perangkat lunak, akan segera digunakan dan, tentu saja, diintegrasikan sebanyak mungkin dengan layanan aplikasi lain. Di sisi lain, mereka tidak selalu memenuhi semua persyaratan yang diperlukan. Misalnya, tidak ada replikasi penuh atau tidak ada integrasi dengan sistem cadangan. Selain itu, kami membuat "segmen / pulau data" khusus lainnya secara eksklusif untuk satu distribusi atau sekumpulan aplikasi.

Persyaratan fungsionalitas

Persyaratan berikut dapat diterapkan pada layanan penyimpanan:

Skalabilitas linier dalam kapasitas dan kinerja.
Kemampuan untuk bekerja secara efektif di lingkungan multi-utas.
Toleransi terhadap kegagalan besar komponen sistem.
Mudah untuk meningkatkan dan memperluas sistem.
Kemampuan untuk membuat tingkatan penyimpanan online dan arsip.
Fungsionalitas lanjutan untuk bekerja dengan data (audit, alat DR, perlindungan terhadap perubahan yang tidak sah, deduplikasi, pencarian metadata, dll.).

Kinerja penyimpanan sangat penting untuk proyek komputasi kinerja tinggi, pembelajaran mesin, dan kecerdasan buatan. Itulah mengapa Dell Technologies menawarkan berbagai macam sistem penyimpanan semua flash dan hybrid untuk memenuhi kebutuhan pelanggan yang paling menuntut.

Portofolio penyimpanan Dell EMC mencakup sistem penyimpanan PowerScale (HDFS, NFS / SMB) dan ECS (S3, Opensatck Swift, HDFS) berkinerja tinggi, serta sistem penyimpanan terdistribusi NFS dan Luster.

Contoh sistem khusus

Dell EMC PowerScale adalah contoh sistem khusus yang memungkinkan Anda bekerja secara efektif dalam proyek yang terkait dengan data besar. Ini memungkinkan Anda membangun danau data perusahaan. Sistem penyimpanan tidak berisi pengontrol dan rak disk, tetapi merupakan sekumpulan node setara yang terhubung menggunakan jaringan duplikat khusus. Setiap node berisi disk, prosesor, memori, dan antarmuka jaringan untuk akses klien. Semua kapasitas disk cluster membentuk kumpulan penyimpanan tunggal dan sistem file tunggal, yang dapat diakses melalui salah satu node.

Dell EMC PowerScaleAdalah sistem penyimpanan dengan akses bersamaan melalui berbagai protokol file. Semua node membentuk kumpulan sumber daya tunggal dan sistem file tunggal. Semua node sama, node mana pun dapat memproses permintaan apa pun tanpa biaya tambahan. Sistem berkembang menjadi 252 node. Dalam satu cluster, kita dapat menggunakan kumpulan node dengan kinerja berbeda. Untuk pemrosesan operasional, gunakan node produktif dengan SSD / NVMe dan akses jaringan yang efisien sebesar 40 atau 25 GbE, dan untuk data arsip, node dengan disk SATA berukuran 8-12 terabyte. Selain itu, dimungkinkan untuk memindahkan data yang paling jarang digunakan ke cloud: baik pribadi maupun publik.

Proyek dan aplikasi

Penggunaan Dell EMC PowerScale telah menghasilkan sejumlah proyek data besar yang menarik . Misalnya, sistem identifikasi aktivitas yang mencurigakan untuk Mastercard. Itu juga berhasil memecahkan masalah yang terkait dengan kontrol kendaraan otomatis (ADAS) Zenuity. Salah satu poin penting adalah kemampuan untuk memisahkan layanan penyimpanan menjadi tingkat terpisah dengan kemungkinan penskalaannya yang terpisah.

Dengan demikian, beberapa platform analitik dapat dihubungkan ke satu platform penyimpanan dengan satu set data. Misalnya, cluster analitik utama dengan distribusi Hadoop spesifik yang berjalan langsung di server, dan loop pengembangan / pengujian virtual. Pada saat yang sama, tidak seluruh cluster dapat dialokasikan untuk tugas analitik, tetapi hanya sebagian saja.

Poin penting kedua adalah PowerScale menyediakan akses ke sistem file. Artinya, dibandingkan dengan solusi tradisional, tidak ada batasan yang tegas mengenai jumlah informasi yang dianalisis. Arsitektur berkerumun memberikan kinerja luar biasa untuk tugas pembelajaran mesin, bahkan saat menggunakan drive SATA yang besar. Ilustrasi yang sangat baik adalah masalah ML / DL di mana keakuratan model yang dihasilkan dapat bergantung pada volume dan kualitas data.

Sistem tradisional

Dell EMC PowerVault ME4084 (DAS) dapat digunakan sebagai sistem penyimpanan dasar. Ini dapat diperluas hingga 3 petabyte dan mampu menghasilkan 5.500 MB / s throughput dan 320.000 IOPS.

Diagram khas dari solusi siap pakai untuk HPC, AI, dan analisis data

Kasus penggunaan AI tipikal berdasarkan industri

Ringkasan

Solusi siap pakai Dell Technologies untuk HPC , AI, dan analitik data menyediakan arsitektur terpadu yang mendukung banyak beban kerja. Arsitekturnya didasarkan pada empat komponen utama: ketersediaan data, penjadwalan pekerjaan dan pengelolaan sumber daya yang mudah, pengoptimalan beban kerja, ditambah orkestrasi dan penampung yang terintegrasi. Arsitekturnya mendukung banyak pilihan server, jaringan, dan penyimpanan untuk memenuhi kebutuhan HPC.

Mereka dapat digunakan untuk memecahkan masalah yang sangat berbeda, dan kami selalu siap membantu pelanggan dengan pemilihan, penerapan, konfigurasi, dan pemeliharaan peralatan.

Penulis materi tersebut adalah Alexander Koryakovsky, Consultant Engineer dari Computing and Networking Solutions Department of Dell Technologies di Rusia.

Membangun arsitektur umum untuk komputasi kinerja tinggi, kecerdasan buatan, dan analitik data