Tren utama Ilmu Data pada tahun 2020 yang akan relevan pada tahun 2021

Halo Habr! Hari ini saya akan memberi tahu Anda bagaimana bidang Ilmu Data berkembang. 2020 telah menjadi titik balik tidak hanya bagi dunia secara keseluruhan, ranah data secara aktif meningkat dan hari ini kami sudah dapat merangkum hasil tahun ini. Temui tren DS pada tahun 2020-2021.







Saya membuat KDPV, lalu memprosesnya menggunakan jaringan saraf. Siapa yang mengenali film itu - orang itu! :-)




AI dan jaringan saraf



Kecerdasan buatan masih mengalami kesulitan dengan uji Turing, namun ada keberhasilan di bidang ini.


Pada Mei 2020, tim OpenAI merilis algoritme pemrosesan bahasa alami GPT-3 yang baru. Tidak diragukan lagi, ini adalah algoritma terbaik yang tersedia saat ini untuk tujuan ini.



Perbaikan sistem dari versi GPT-2 sebelumnya sangat besar. Jumlah parameter algoritma telah meningkat lebih dari 100 kali lipat. GPT-3 menggunakan 175 miliar parameter, sedangkan GPT-2 hanya menggunakan 1,5 miliar,







dan jika sebelumnya jaringan saraf dapat menghasilkan teks yang hanya kurang lebih menyerupai manusia, kini kemampuannya jauh lebih luas.



Seorang siswa di akun Apolos memposting artikel yang ditulis oleh GPT-3. Tidak terlalu sulit, dengan gaya seorang pelatih motivasi. Dan hanya satu dari puluhan ribu pembaca yang menduga bahwa artikel tersebut tidak ditulis oleh seseorang.







Sebenarnya, inilah mengapa OpenAI tidak merilis algoritme untuk akses gratis - dengan bantuannya Anda dapat mengubur Internet di bawah badai berita palsu.



Manfaat potensial GPT-3 sangat besar. Dari membuat asisten suara generasi baru hingga mengembangkan mekanisme game adaptif yang akan membawa RPG ke level yang sama sekali baru.



Ngomong-ngomong, sudah pernah mencoba AI Dungeon , game berbasis teks yang dimainkan oleh GPT-3? Jika tidak, cobalah, itu pengalaman yang sangat menarik. Artikel ini menjelaskan salah satu pengalaman ini.


Kecerdasan keputusan



Ilmu keputusan adalah disiplin ilmu yang cukup baru yang mempelajari teori-teori ilmiah tentang pengambilan keputusan. Sehingga keputusan dibuat bukan berdasarkan pengalaman subjektif atau perasaan pengambil keputusan, tetapi melalui analisis dan perbandingan data.



DI memungkinkan Anda untuk mengotomatiskan pembuatan keputusan rutin dan operasional, melepaskan pembuat keputusan.



InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .



InferVision, 5 . , . . , , , .



Kecerdasan keputusan didasarkan pada AI dan pembelajaran mendalam. InferVision, misalnya, dilatih 100 ribu kasus.



Tentu saja, dengan perkembangan teknologi saat ini, AI masih belum dapat membuat keputusan yang lebih baik secara obyektif dalam sistem dengan banyak varian. Ini hanya kekurangan kekuatan dan data input untuk analisis. Tetapi dalam banyak momen, itu memungkinkan Anda untuk mengecualikan impulsif seseorang, biasnya, dan kesalahan pemikiran yang dangkal. Dan juga untuk mengotomatiskan proses pengambilan keputusan rutin dan menghemat waktu spesialis untuk memecahkan masalah yang kompleks.



Analisis awan



Sistem cloud analytics telah ada sebelumnya, namun pada tahun 2020 dinamika perkembangannya telah meningkat pesat.



Analisis awan menyederhanakan proses penggunaan kumpulan data besar yang sering diperbarui. Sistem analitik terpadu untuk semua divisi perusahaan membantu memperbarui hasil analitik dan mempercepat penggunaannya.



Analisis waktu nyata adalah langkah selanjutnya yang diperjuangkan banyak perusahaan. Lebih baik beroperasi dengan hasil analisis panas, yang dilakukan beberapa detik yang lalu. Bagaimanapun, analisis yang dibuat kemarin mungkin sudah tidak akurat.



Cloud analytics adalah alat yang menjanjikan bagi raksasa bisnis yang memiliki departemen analitik di setiap cabang. Oleh karena itu, perusahaan besar seperti IBM saat ini sangat terlibat dalam pengembangan sistem semacam itu.



Pasar data



Analisis terkait cloud, tetapi merupakan fenomena terpisah. 



Kualitas data untuk analisis sangat penting. Jika sebuah startup tidak memiliki kesempatan untuk melakukan riset pemasaran global, maka ia berisiko bergerak secara membabi buta, tidak mengetahui kebutuhan sebenarnya dari audiens target. 



Tapi sekarang analitik bisa dibeli. Pasar data adalah pasar informasi yang lengkap. Statista yang terkenal adalah salah satu pasar pertama yang serupa, tetapi sekarang industri ini berkembang dengan sangat pesat.



Secara alami, tidak ada yang menjual data pribadi (setidaknya secara legal). Nama dan nama keluarga, alamat tempat tinggal, nomor telepon dan email dilindungi oleh hukum. Tapi data yang dianonimkan bisa dijual. Dan ada banyak hal berguna untuk bisnis. Usia dan jenis kelamin, status sosial, preferensi, bidang pekerjaan, hobi, kebangsaan, dan ratusan parameter lain yang Anda tinggalkan di jaringan, hingga pilihan gadget di iOS atau Android. Kami ingat kebenaran lama - jika sesuatu di jaringan gratis, maka mungkin Anda sendiri yang membayarnya.


Pasar Big Data pada tahun 2020 adalah $ 138,9 miliar. Para ahli memperkirakan bahwa pada tahun 2025 akan tumbuh menjadi 229,4 miliar Ini adalah skala kolosal, di mana bagian terbesar akan ditempati oleh penjualan informasi, dan bukan penambangannya.



Blockchain dalam analitik



Hype blockchain sudah sedikit meningkat. Pada 2017, hanya pemalas yang tidak mau meluncurkan cryptocurrency mereka sendiri, dan pada 2020 blockchain digunakan untuk tujuan yang lebih pragmatis.



Kombinasi blockchain dan data besar disebut penyatuan sempurna. Blockchain berfokus pada penggalian dan pencatatan data yang andal, ilmu data menganalisis sejumlah besar data untuk menemukan pola pengembangan dan membuat prediksi.



Data besar adalah kuantitas dan blockchain adalah kualitas.

Ada banyak manfaat potensial dari integrasi blockchain ke dalam analisis data besar:



  • Meningkatkan keamanan data dan hasil analitik.

  • Menjaga integritas data yang maksimal.

  • Mencegah penggunaan data palsu.

  • Analisis waktu nyata. 

  • Meningkatkan kualitas big data.



Blockchain untuk KYC (kenal pelanggan Anda). Teknologi tersebut digunakan oleh bank dan instansi pemerintah. Tetapi karena tidak ada gudang data umum antara organisasi yang berbeda, masing-masing harus diidentifikasi secara terpisah. Blockchain menyelesaikan masalah ini. 



Platform Samsung Nexleger , yang diluncurkan di Korea, menyederhanakan skema ini. Sekarang cukup melalui prosedur identifikasi lengkap hanya di satu bank atau organisasi. Jika Anda perlu membuat rekening bank, yang termasuk dalam sistem proyek, maka ini dapat dilakukan dalam beberapa menit. Sekarang semua lingkaran birokrasi harus melalui hanya sekali - itu saja.


Database grafik



Bukan tipe DBMS yang paling populer dan tersebar luas. Ini dirancang khusus untuk menyimpan topologi yang mencakup node dan hubungannya. Ini bukan hanya kumpulan data dalam format tabel klasik. Esensi mereka berbeda.



Grafik didasarkan pada hubungan antar entitas, bukan entitas itu sendiri.











Dan ini hanya klondike untuk pemasaran. Bagaimanapun, analisis basis data grafik dapat digunakan untuk menganalisis pemimpin opini dan influencer di jejaring sosial, mempersonalisasi iklan, program loyalitas, menganalisis kampanye viral, meningkatkan SEO, dan banyak lagi.



Grafik memungkinkan Anda menganalisis struktur hierarki kompleks yang mungkin bermasalah untuk dimodelkan menggunakan database relasional.



Pada tahun 2020, analisis grafik secara aktif digunakan untuk melacak penyebaran virus di China dan sekitarnya. Studi ini didasarkan pada data dinamis dari 200 negara, yang memungkinkan untuk memprediksi perkembangan situasi dunia di masa depan dan mengambil tindakan untuk mengurangi konsekuensinya. Jika tertarik, studi lengkapnya ada di sini .


Pada tahun 2020, minat DBMS grafik telah meningkat secara signifikan. Mereka digunakan oleh Ebay, Airbnb, IBM, Adobe, NBC News, dan puluhan perusahaan besar lainnya. Dan spesialis yang tahu bagaimana bekerja dengan baik dengan database grafik sangat berharga.



Python dalam Ilmu Data



Python terus menguasai analitik global dan pasar pengembangan. Dan posisinya semakin kuat. Anda dapat membaca lebih lanjut di artikel ini .



Dalam peringkat PYPL, Python, yang menganalisis Google Trends, memimpin dengan percaya diri. 



Python menempati urutan kedua dalam peringkat GitHub untuk jumlah permintaan tarik: 15,9% dari jumlah total semua permintaan tarik. Sebagai perbandingan, bahasa R, yang selalu bersaing dengan Python dalam analitik, sudah berada di posisi ke-33, dan hanya menyumbang 0,09% dari permintaan tarik. 



Lebih dibutuhkan ahli dengan kemampuan Python dalam analitik. Kami baru-baru ini menganalisis pasar kerja Data Science di Rusia dan menemukan bahwa pengetahuan tentang Python diperlukan di 81% lowongan, tetapi R (tanpa Python) hanya diperlukan dalam 3% kasus.



R tetap menjadi bahasa yang baik untuk analitik, tetapi Python hampir sepenuhnya menguasai pasar. Jika di tahun 2012 mereka berada di posisi yang kurang lebih sama, kini kepemimpinan Python tidak bisa dipungkiri. Dan ini harus diperhitungkan.



Tahun 2020 telah membawa banyak hal baru pada Ilmu Data, karena bidang analitik data besar sendiri kini sedang giat berkembang. Tentu saja, ini jauh dari semua tren yang layak disebutkan. Dan pertanyaan terpisah untuk ilmuwan data - tren profesional apa yang paling memengaruhi pekerjaan Anda tahun ini? Kami sangat tertarik untuk mendengarnya.



gambar













All Articles