Daftar Isi:
Pengantar
1. Matematika dan statistik
2. Dasar-dasar pemrograman
3. Algoritma dan konsep pembelajaran mesin
4. Proyek di bidang ilmu data
pengantar
Dugaan saya adalah bahwa sebagai ilmuwan data pemula, Anda pasti ingin memahami sepenuhnya konsep dan detail berbagai algoritme pembelajaran mesin, konsep sains data, dan sebagainya.
Oleh karena itu, saya menyarankan Anda untuk mulai dari dasar bahkan sebelum Anda melihat algoritma pembelajaran mesin atau aplikasi analisis data. Jika Anda tidak memiliki pemahaman dasar tentang kalkulus dan integral, aljabar linier dan statistik, akan sulit bagi Anda untuk memahami mekanisme yang mendasari berbagai algoritme. Begitu pula jika Anda tidak memiliki pemahaman dasar tentang Python, akan sulit bagi Anda untuk menerjemahkan pengetahuan Anda ke dalam aplikasi dunia nyata. Di bawah ini adalah urutan topik yang saya rekomendasikan untuk dipelajari:
- Matematika dan statistik.
- Dasar-dasar pemrograman.
- Algoritme dan konsep pembelajaran mesin.
1. Matematika dan statistik
Seperti semua hal lainnya, Anda harus mempelajari dasar-dasarnya sebelum mempelajari hal-hal menyenangkan. Percayalah, akan jauh lebih mudah bagi saya jika saya mulai dengan belajar matematika dan statistik sebelum memulai dengan beberapa algoritma pembelajaran mesin. Tiga topik umum yang saya sarankan untuk dilihat adalah kalkulus / integral, statistik, dan aljabar linier (tanpa urutan tertentu).
Integral
Integral penting dalam distribusi probabilitas dan pengujian hipotesis. Meskipun Anda tidak perlu menjadi seorang ahli, Anda sebaiknya mempelajari dasar-dasar integral. Dua artikel pertama ditujukan bagi mereka yang ingin mengetahui apa integral itu, atau bagi mereka yang hanya ingin memoles pengetahuannya. Jika Anda sama sekali tidak tahu tentang integral, saya sarankan Anda mengambil kursus Khan Academy. Terakhir, berikut ini tautan ke sejumlah tugas praktis untuk mengasah keterampilan Anda:
- Pengantar integral (artikel).
- Kursus kilat tentang integral (artikel).
- Khan Academy: Integral Calculus (kursus).
- Pertanyaan Praktis (mulai dengan blok 6).
Statistik
Jika ada topik yang harus Anda fokuskan, itu adalah statistik. Bagaimanapun, data scientist adalah ahli statistik yang benar-benar modern, dan machine learning adalah istilah modern untuk statistik. Jika Anda punya waktu, saya sarankan Anda mengambil kursus Georgia Tech yang berjudul Teknik Statistik , yang mencakup dasar-dasar probabilitas, variabel acak, distribusi probabilitas, pengujian hipotesis, dan banyak lagi. Jika Anda tidak punya waktu untuk mengabdikan diri pada kursus ini, saya sangat menyarankan untuk menonton video Khan Academy tentang statistik .
Aljabar linier
Aljabar linier sangat penting terutama jika Anda ingin mendalami pembelajaran mendalam, namun tetap berguna untuk mengetahuinya untuk konsep pembelajaran mesin dasar lainnya seperti analisis komponen utama dan sistem pemberi rekomendasi. Untuk menguasai aljabar linier, saya juga merekomendasikan Khan Academy !
2. Dasar-dasar pemrograman
Sama seperti pemahaman dasar matematika dan statistik itu penting, pemahaman dasar tentang pemrograman akan membuat hidup Anda jauh lebih mudah, terutama dalam hal implementasi. Oleh karena itu, saya merekomendasikan agar Anda meluangkan waktu untuk mempelajari bahasa dasar - SQL dan Python, sebelum mempelajari algoritme pembelajaran mesin.
SQL
Tidak peduli harus mulai dari mana, tapi saya akan mulai dengan SQL. Mengapa? Lebih mudah dipelajari dan berguna untuk mengetahui apakah Anda bekerja di perusahaan data, bahkan jika Anda bukan seorang ilmuwan data.
Jika Anda baru mengenal SQL, saya sarankan untuk memeriksa tutorial SQL Mode , karena sangat ringkas dan terperinci. Jika Anda ingin mempelajari konsep lebih lanjut, lihat daftar sumber daya tempat Anda dapat mempelajari SQL tingkat lanjut .
Berikut adalah beberapa sumber daya yang dapat Anda gunakan untuk berlatih SQL:
Python
Saya mulai dengan Python dan mungkin akan tetap menggunakan bahasa ini selama sisa hidup saya. Ini jauh di depan dalam hal kontribusi Open Source dan mudah dipelajari. Jangan ragu untuk beralih ke R jika Anda mau, tetapi saya tidak memiliki pendapat atau saran tentang R. Saya telah menemukan bahwa belajar Python dengan latihan jauh lebih bermanfaat. Namun, setelah mengambil beberapa kursus kilat Python, saya sampai pada kesimpulan bahwa kursus ini adalah yang paling lengkap (dan gratis!).
Panda
Mungkin pustaka yang paling penting untuk diketahui adalah Pandas, yang dirancang khusus untuk manipulasi dan analisis data. Di bawah ini adalah dua sumber daya yang akan mempercepat kurva pembelajaran Anda. Tautan pertama adalah tutorial tentang cara menggunakan Randas, dan tautan kedua berisi banyak tugas praktis yang dapat Anda selesaikan untuk memperkuat pengetahuan Anda!
3. Algoritma dan konsep pembelajaran mesin
Jika Anda sudah sampai pada bagian artikel ini, artinya Anda telah membangun fondasi dan siap mempelajari hal-hal menarik. Bagian ini dibagi menjadi dua: algoritme pembelajaran mesin dan konsep pembelajaran mesin.
Algoritme pembelajaran mesin
Langkah selanjutnya adalah mempelajari berbagai algoritme pembelajaran mesin, cara kerjanya, dan kapan menggunakannya. Di bawah ini adalah daftar sebagian dari berbagai algoritme dan resource machine learning yang dapat Anda gunakan untuk mempelajarinya masing-masing.
- Regresi Linier ( Georgia Tech , StatQuest ).
- Regresi logistik ( StatQuest ).
- K tetangga terdekat ( MIT ).
- Pohon keputusan ( StatQuest ).
- Naive Bayes ( Terence Sheen , Luis Serrano ).
- Mendukung Mesin Vektor ( Tutorial SVM oleh Alice Zhao ).
- Jaringan saraf ( Terence Sheen ).
- Hutan acak ( StatQuest ).
- AdaBoost ( Terence Sheen , StatQuest ).
- Peningkatan gradien ( StatQuest ).
- XGBoost ( StatQuest ).
- Analisis komponen utama ( StatQuest ).
Konsep pembelajaran mesin
Selain itu, ada beberapa konsep dasar machine learning yang juga ingin Anda pelajari. Di bawah ini adalah daftar konsep (tidak lengkap) yang sangat saya rekomendasikan untuk dipelajari. Banyak pertanyaan wawancara didasarkan pada topik ini!
- Regularisasi .
- Bias - dilema varians .
- Matriks kebingungan dan metrik terkait .
- Area di bawah kurva KOP dan KOP (video) .
- Pengambilan bootstrap .
- Pelatihan ensemble, mengantongi dan meningkatkan .
- Normalisasi dan standardisasi .
4. Proyek di bidang ilmu data
Pada titik ini, Anda tidak hanya akan membangun fondasi yang kuat, tetapi Anda juga akan memiliki pemahaman yang kuat tentang dasar-dasar pembelajaran mesin. Sekarang saatnya mengerjakan beberapa proyek sampingan pribadi. Jika Anda ingin melihat beberapa contoh sederhana dari proyek ilmu data, lihat beberapa proyek saya:
- Memprediksi Kualitas Anggur Menggunakan Metode Klasifikasi ( artikel , Github ).
- Memvisualisasikan Data Coronavirus dengan Plotly ( artikel , Github ).
- Sistem Rekomendasi Film dengan Filter Kolaboratif ( Github ).
Berikut adalah daftar proyek ilmu data yang dapat Anda lihat untuk menghasilkan proyek sampingan yang menarik.
Saya berharap posting ini akan memberi Anda arahan dan membantu dalam karir Anda di Ilmu Data. Tidak ada peluru perak, jadi silakan mengambil posting ini dengan sebutir garam, tetapi saya percaya bahwa mempelajari dasar-dasarnya akan membuahkan hasil di masa depan. Dan kode promo HABR akan menambahkan 10% ke diskon pelatihan yang tertera di spanduk.