Mempelajari ilmu data dari awal: pencapaian dan pencapaian

Sesuai dengan konsep pendekatan spiral untuk belajar, yang saya tulis sebelumnya , berikut adalah rencana langkah demi langkah untuk menguasai ilmu data. Rencana tersebut dirancang sedemikian rupa sehingga setiap tahap membuat siswa lebih atau kurang lebih siap untuk tugas dunia nyata. Pendekatan ini terinspirasi oleh ideologi Agile dalam arti bahwa tidak peduli berapa banyak waktu yang Anda habiskan untuk belajar dan kapan pun Anda berhenti, Anda akan memiliki seperangkat pengetahuan yang paling banyak diminta yang dapat Anda kuasai dalam waktu seperti itu.





Logika ini juga dapat dijelaskan dari sebaliknya: berbahaya untuk segera mempelajari jaringan saraf, karena seseorang yang mengetahui sesuatu tentang mereka, tetapi tidak tahu bagaimana menerapkannya secara efektif dalam praktik, tidak diminta. Dan, misalnya, Anda bisa mendapatkan sekumpulan pengetahuan dalam 300 jam yang tidak membuat Anda menjadi spesialis yang cukup baik untuk memecahkan masalah nyata, dan bahkan tidak akan memungkinkan Anda mencari pekerjaan awal untuk terus mengembangkan keterampilan ini.





Jika Anda belajar sesuai dengan rencana yang diusulkan, di setiap tahap akan ada peningkatan peluang untuk mendapatkan pekerjaan semacam itu, sehingga keterampilan yang diperlukan untuk pertumbuhan lebih lanjut juga dapat ditingkatkan dalam pekerjaan nyata.





Untuk setiap tahap, saya menunjukkan biaya tenaga kerja referensi, dengan tunduk pada pendekatan yang kurang lebih efektif dan hanya mempelajari volume minimum yang diperlukan (dengan pendekatan yang tidak efektif, setiap item dapat diajarkan sepuluh kali lebih lama)





Nanti, di artikel terpisah saya akan menulis kursus dan buku bagus yang sesuai dengan setiap tahap (beberapa kursus dan buku untuk tahap pertama telah ditunjukkan sebelumnya di artikel pertama seri ini).





Tahap 1. Alat analisis data dasar: SQL, Excel

  • Dasar-dasar SQL (20 jam). Pengetahuan tentang SQL Anda sendiri dapat berguna untuk banyak tugas lainnya. Dan itu, dalam hal apa pun, diperlukan untuk sebagian besar (sebagian besar?) Lowongan untuk posisi seorang analis, ilmuwan data dan, terlebih lagi, seorang insinyur pembelajaran mesin.





  • Dasar-dasar Excel (10 jam): memfilter dan mengurutkan data, rumus, vlookup, tabel pivot, pekerjaan dasar dengan bagan. Kolega, mitra, atau manajemen akan mengirimkan masukan untuk berprestasi, dan Anda harus dapat dengan cepat memahami dan mempelajarinya. Seringkali, lebih mudah untuk mempersiapkan dan menyajikan hasil analisis yang dilakukan dengan Python di Excel.





  • (20-200, ), .. , pandas/scikit, Python .





: / / -. , , 100, 50-70 .





2. Python Pandas

  • Python (80). . .





  • pandas (20 ) - . : , , ,





  • API (requests, beatiful soup)





Python API, -.





, . , -, ( ). , , .





3.

( 200-400 , )





  :





  • -





  • Overfitting









  • Data leakage





  • ( )









, :





  • :

















    • Random forest









    • kNN





  • : k-means





  • :





  • : PCA





: dummy , one-hot encoding, tf-idf









:





  • : , ( ).





  • : "correlation does not imply causation", .





  • ., ,   : . (max likelihood), (log-likelihood). ( log log-odds), ( ""). , , . , . . , senior, :





. - (/) .





4.

- scikit-learn, pandas (numpy).





, . 100-300. - , .





feature engineering





junior data scientist. . . senior , .





, CNN, RNN/LSTM , vector embeddings. , . " " , , , , , .





, .





20-40, .





5. ,  

60-200, . , , , .. ,





  • Conda, , conda





  • bash





  • Python standard library, ( itertools, collections, contextlib), , ; context managers.





  • git, IDE: pycharm/vs code. git,





  • (matplotlib+seaborn, plotnine, plotly), .





( -, ).





, , , , (feature engineering), , , (xgboost, cat-boost). . Senior .





, 2-5

- , . , , . ( ):





  • matplotlib – , . , , -. , , "" - .





  • seaborn - , . .





  • plotnine - . - , . - seaborn , matplotlib , . , , plotnine . plotly - .





  • plotly - . . , , ().





, 10-20 .





, - PowerBI Tableau, . , , 60. SQL+Excel+PowerBI/Tableau "BI-" c 100 ., 150 . .





, ,





  • regular expressions, aka RegExp (10). regexp .





  • PySpark (40 , 100-200 ) . , (). Big data. , .. . ( , ).





    Spark , , , .. SQL , , API pandas. , . Koalas, pandas spark-, Spark.





  • html - , , , .





6

, , , .





  • Python :  , , , dunderscore ____ .





  • bash, linux





  • docker





  . , , . .. , .





- (, EDA ). , . , . , , .. . , : , , .





, . , .. . , "" .





:  . 50, , , .





, , data science









, ,









, ( 2 ) , , .





, , , , . , , , . , .





, , , .





self.development.mentor di domain gmail.com, Oleg 








All Articles