Saya akan segera mengklarifikasi bahwa ada banyak jenis analis, karena Anda dapat menganalisis apa pun yang Anda suka. Mereka adalah analis web, ilmuwan data klasik, analis bisnis, analis keuangan, serta analis produk, sistem, dan UX. Alasan keragaman ini, rupanya, adalah bahwa di sejumlah perusahaan besar, puluhan atau bahkan ratusan pemrogram dan analis dapat secara bersamaan mengerjakan pembuatan satu platform atau produk. Dalam kondisi seperti itu, terjadi penyempitan spesialisasi yang kuat.
Semua jenis analis ini menggunakan perangkat khusus mereka sendiri. Oleh karena itu, saya hanya akan fokus langsung pada bidang analisis data, di luar konteks asal data ini. Dengan demikian, kami mengecualikan dari tinjauan sistem analisis web, CRM, ERP, sistem akuntansi gudang, logistik dan manajemen dokumen.
1. Bahasa pemrograman
Kami tidak akan memikirkan kejadian-kejadian luar biasa, unik atau langka. Mari kita pertimbangkan hanya yang paling populer. Dan tentu saja, pertama-tama, ini adalah bahasa python.
Python
Python berfungsi sebagai alat utama di tangan para ilmuwan data, tidak diketik dengan kuat, dan dirancang untuk pembuatan prototipe cepat atau pembuatan skrip atau skrip pendek. Orang-orang yang memahami pemrograman dan ilmu komputer sering mengkritiknya karena fakta bahwa algoritma yang ditulis dengan python murni tidak optimal dalam hal kinerja dan kebutuhan memorinya.
Meski demikian, bahasa pemrograman ini memiliki banyak keunggulan. Di antara mereka, saya akan mencatat bahwa python diajarkan hampir di mana-mana, dan oleh karena itu relatif mudah untuk menemukan seorang analis yang mengetahui python. Keuntungan kedua adalah perpustakaan untuk bekerja dengan data dan pembelajaran mesin, yang memiliki antarmuka yang ramah pengguna. Misalnya, sklearn mempermudah pembuatan praproses dan pembuatan model pipeline. Semua algoritme dan setelan pembelajaran mesin diringkas di dalam kelas dan objek, yang membuat kodenya sangat sederhana.
R
Sampai saat ini, pesaing utama python adalah bahasa R. Permintaan pengetahuan tentang R dan sekarang jarang muncul di deskripsi pekerjaan, setidaknya di bagian "manfaat". Hingga pertengahan 2018, saya sendiri memprogram di R. Dan ketika mencoba mengotomatiskan beberapa pekerjaan pembelajaran mesin saya, saya hampir menemukan kembali roda, mencoba membuat pipeline untuk persiapan data dan pelatihan model di R. Beberapa saat kemudian saya menemukan bahwa pipeline seperti itu telah lama ada di library sklearn dan disebut pipeline.
C ++, C #
Jika pustaka python yang ada tidak mencukupi dan Anda perlu menerapkan algoritme baru dengan kinerja tinggi, Anda dapat menggunakan bahasa C ++ yang dikompilasi dan diketik secara statis atau bahasa serupa C #.
Matlab
Bahasa MatLab dibangun ke dalam paket perangkat lunak dengan nama yang sama dan lingkungan interaktif untuk kalkulasi teknik. Benar, bahasa ini lebih ditujukan untuk memecahkan masalah teknis, dan bukan untuk melakukan analisis keuangan atau bisnis. Misalnya, saya beruntung menggunakan MatLab dua kali: dalam proses mempelajari sinyal emisi akustik dalam struktur, serta dalam pemrosesan ucapan manusia.
Ada sejumlah pustaka pembelajaran mesin dengan API untuk bahasa pemrograman lain seperti Java, JavaScript, Scala, dll. Tetapi saya tidak akan membahasnya karena tujuan artikelnya sedikit berbeda.
Harap bersabar sedikit. Anda akan mempelajari semuanya di bagian berikut.
2. AutoML dan desainer visual
AutoML, menurut ide dasarnya, secara dramatis menyederhanakan tugas peneliti dan mengurangi beberapa langkah dalam mempelajari dan menyiapkan data, membuat fitur, memilih dan membandingkan algoritme pembelajaran mesin, dan menyetel hyperparameter menjadi satu langkah. Dan langkah ini untuk memilih dan mengkonfigurasi satu kotak besar yang disebut AutoML. Hasil dari menjalankan algoritme AutoML adalah pipeline yang dibangun dan dikonfigurasikan dengan tepat serta terlatih. Tinggal mengambil data "mentah", memasukkannya ke dalam pipeline dan menunggu hasilnya dalam bentuk prakiraan di keluaran.
Kotak yang disebut "AutoML" tampak seperti pustaka pembelajaran mesin atau layanan web tempat data diunggah.
Jika ini adalah pustaka, maka ini berbeda dari sklearn karena kode biasa 20-30 baris kami dikompresi menjadi 5 baris. Contoh terkenal dari pustaka semacam itu adalah H2O.
Contoh lainnya adalah pustaka MLBox. Anda dapat menemukan cerita tentangnya di Internet, tentang bagaimana penggunaan MLBox memungkinkannya untuk masuk ke dalam 5% teratas dalam kompetisi kaggle.
Sekarang beberapa kata tentang layanan cloud AutoML. Pertama, semua raksasa digital besar sedang terburu-buru untuk mempresentasikan solusi teknis mereka. Beberapa di antaranya adalah: Google AutoML Tables, Azure Machine Learning (Microsoft), SageMaker Autopilot (Amazon). Layanan yang terdaftar harus menarik terutama bagi perusahaan yang mengembangkan sistem analitik pada platform cloud. Akan sangat mudah jika infrastruktur data, sumber daya komputasi, dan algoritme pembelajaran mesin yang siap pakai disediakan oleh penyedia yang sama. Integrasinya benar-benar mulus.
Selain raksasa digital, pemain kecil memasuki pasar AutoML. Misalnya, Bell Integrator saat ini aktif bekerja di platform neuton.ai.
Di bagian yang sama, perlu diingat sistem pembelajaran mesin yang menempati posisi perantara antara pemrograman langsung di R dan Python dan AutoML yang dikemas penuh. Inilah yang disebut konstruktor alur kerja. Dua contoh tipikal adalah Microsoft Azure Machine Learning Designer dan platform SberDS Sberbank.
Konstruktor adalah sekumpulan batu bata tempat Anda dapat merakit seluruh pipeline machine learning, termasuk pemeriksaan akhir kesehatan model. Tidak diragukan lagi, ini adalah solusi yang bagus untuk orang-orang dengan pola pikir visual yang nyaman mewakili proses pembelajaran mesin dan pengujian model dalam bentuk diagram.
3. Alat BI
Di sini saya ingin meninjau beberapa solusi BI di bidang analitik: Power BI, Tableau, Qlick Sense, Qlick View, dan Excel.
Power BI
Power BI adalah sekumpulan alat analitik dari Microsoft yang tersedia sebagai aplikasi desktop dan layanan cloud. Ada solusi korporat yang bekerja pada infrastruktur TI tertutup perusahaan. Bekerja di Power BI Desktop atau Power BI Services tidak memerlukan keahlian pengkodean. Ada kemungkinan integrasi online dengan sumber data eksternal, serta mengunduh data dalam format csv.
Power BI dapat menyelesaikan masalah pembelajaran mesin menggunakan AutoML, yaitu Anda tidak perlu menulis kode seperti di Python untuk membuat model klasifikasi atau regresi. Selain tugas standar menganalisis data tabel, fungsinya mencakup teknologi untuk analisis sentimen, ekstraksi frasa kunci, pengenalan bahasa, dan menambahkan tag ke gambar.
Tableau
Tableau juga merupakan seluruh keluarga aplikasi online dan desktop, seperti Power BI. Aplikasi ini memiliki antarmuka visual yang sederhana dan memungkinkan Anda untuk bekerja dengan metode seret dan lepas. Bagan yang indah dibuat hanya dengan beberapa klik. Anda juga dapat menganalisis data dalam bentuk tabel dan menerapkan berbagai filter ke dalamnya.
Tableau memungkinkan Anda memecahkan masalah pembelajaran mesin seperti regresi, perkiraan deret waktu, analisis kluster. Yang terpenting, Tableau dapat berintegrasi dengan skrip eksternal di R dan Python. Ternyata alat yang mudah dikembangkan.
Qlick Sence dan Qlick View
Qlick Sence dan Qlick View berbeda dalam pemosisian dan antarmuka, tetapi pada intinya dan dalam algoritma pemecahan masalah keduanya dibangun pada mesin yang sama. Qlick View adalah platform perusahaan yang dijalankan oleh spesialisnya, Qlick Sence adalah alat untuk penggunaan pribadi tanpa perlu mencari bantuan dari teknisi. dukung.
Pada kenalan pertama, "keindahan" dan kemudahan visualisasi sangat mencolok. Ini adalah alat yang tepat untuk membuat dasbor manajemen yang menarik. Dari sudut pandang saya, kemampuan untuk mengubah skala saat menganalisis peta geografis dan cluster pada grafik dua dimensi terlihat sangat spektakuler. Saya ingat bidikan dari film, di mana dalam foto dari satelit mereka mencoba melihat pelat nomor mobil atau untuk membedakan seseorang dari kerumunan di alun-alun.
Pilihan menarik lainnya adalah hadirnya aplikasi mobile untuk melakukan analisis dari smartphone. Beginilah tampilan manajer puncak jaringan ritel, bergegas ke penerbangan berikutnya di bandara dan menerima pesan tak terduga di kurir dengan tautan ke dasbor.
Qlick Sence terintegrasi dengan Python dan karenanya pembelajaran mesin.
Excel
Anda akan memaafkan saya, tetapi saya tidak bisa melewati Excel. Tidak peduli seberapa banyak Anda tertawa, alat musik apa pun bagus dengan caranya sendiri. Misalnya, tabel dan grafik pivot Excel dibuat dengan indah hanya dengan beberapa klik. Dikombinasikan dengan spreadsheet yang nyaman dan pemformatan csv, ini adalah alat yang cukup bagus.
4. Sorotan pada kue. Pembuatan kode otomatis berbasis AI
Suatu ketika, ketika saya bertemu di internet, saya ditanyai pertanyaan "apakah Anda memprogram dengan python?" Dan ketika saya menjawab "Ya," sekuelnya benar-benar tidak terduga.
"Apakah Anda tahu tentang ini ..." dan kemudian ada tautan ke video di Youtube
https://www.youtube.com/watch?v=fZSFNUT6iY8&t=4s&ab_channel=FazilBabu .
Ini adalah model teks generatif dari OpenAI, dilatih di repositori GitHub. Contoh spesifik menunjukkan kemampuan model untuk menghasilkan kode Python berdasarkan judul fungsi dan deskripsi singkatnya.
Tetapi bagaimana jika model seperti itu dapat dilatih dengan baik pada skrip oleh data scientist? Ini adalah pertanyaan untuk dipikirkan ...