MSc dalam Ilmu Data: Saran dari Mahasiswa Pascasarjana Universitas Harvard

Penerjemahan dilakukan sebagai bagian dari rekrutmen mahasiswa untuk program master online di bidang Ilmu Data dengan ijazah negara dari MISiS .



gambar



Dalam artikel ini, saya ingin berbagi pengalaman saya tentang karir ilmiah di bidang Ilmu Data, yang terakumulasi selama satu setengah tahun terakhir.



Ini adalah posting pertama saya di Medium, jadi saya ingin berbicara tentang diri saya dan pengalaman saya sebelumnya. Saya seorang mahasiswa PhD di bidang Teknik Lingkungan dan Komputasi di Universitas Harvard, dan saya juga bekerja sebagai konsultan pembelajaran mesin dan blockchain untuk firma konsultan kecerdasan buatan yang berbasis di Inggris, Critical Future. Penelitian saya berfokus pada implementasi pembelajaran mesin dan kecerdasan buatan dalam ilmu lingkungan menggunakan sistem sensor berbasis drone yang dapat bergerak sendiri untuk membuat gambar komposisi kimiawi atmosfer yang lebih rendah, terutama di hutan hujan Amazon (bagi mereka yang tertarik dengan proyek ini, Saya akan memposting artikel terpisah tentang topik ini dalam waktu dekat).



Saya memulai perjalanan PhD saya di Universitas Harvard pada musim gugur 2017 dengan gelar BA dan MA di bidang teknik mesin dari Imperial College London, dan menyelesaikan tahun terakhir saya di luar negeri di National University of Singapore. Selama studi sarjana saya, saya tidak begitu paham dengan Ilmu Data dan statistik secara umum, tetapi pada saat yang sama saya tahu banyak tentang pemrograman di Matlab, C dan Visual Basic, dan juga memiliki latar belakang matematika yang kuat.



Sebelum saya mulai di Harvard, saya tidak pernah memprogram dengan Python, atau bahkan mendengar tentang R. Saya tidak pernah melakukan komputasi paralel, tidak pernah membuat cluster, dan pembelajaran mesin serta kecerdasan buatan adalah hal-hal yang biasanya hanya saya dengar. dari novel dan film distopia.



Menghadiri program Harvard Computer Science dan Machine Learning dengan latar belakang sederhana seperti mendaki tebing terjal (melelahkan dan goyah). Namun, ini Harvard, jadi Anda hampir tidak bisa mengharapkan apa pun yang kurang dari itu. Program PhD Harvard membutuhkan 10 program, yang biasanya 8 adalah program Master. Mereka dapat diselesaikan dengan kecepatan Anda sendiri, tetapi Anda harus menyelesaikannya sebelum lulus, yang rata-rata membutuhkan waktu 5 tahun. Siswa didorong untuk menyelesaikan semua kursus dalam dua tahun pertama, setelah itu mereka dapat memperoleh gelar master (secara resmi gratis). Pada akhir semester musim semi 2019, saya akan memenuhi persyaratan ini dan menerima diploma saya, setelah itu saya akan fokus secara eksklusif pada penelitian.



Pada musim gugur 2018, Harvard meluncurkan kelompok siswa pertama untuk program Magister Ilmu Data. Ini adalah program dua tahun yang terdiri dari mata kuliah inti dalam Ilmu Data, Etika, dan Matematika Terapan, Ilmu Komputer, dan mata kuliah pilihan dalam Statistik / Ekonomi. Tiba setahun sebelum semua siswa ini, saya akan menjadi salah satu orang pertama yang memenuhi prasyarat dasar untuk program ini, memberi saya pengalaman unik dalam hal efektivitas gelar Ilmu Data saya.



Selama 18 bulan terakhir, saya telah mengikuti sejumlah kursus. Salah satu yang pertama adalah CS205: Parallel Computing, tempat saya pertama kali belajar memprogram di Linux dan membuat cluster komputasi yang mampu melakukan akselerasi linear komputasi matriks, dan kursus ini berpuncak pada proyek akhir yang menyertakan komputasi paralel dengan Python dengan Dask pada cluster Kubernetes.



Saya juga mengambil AM207: Advanced Scientific Computing, yang ditawarkan oleh Harvard Extension School (yang berarti siapa saja dapat mengikuti kursus ini). Kursus ini berfokus pada statistik Bayesian dan implementasinya dalam pembelajaran mesin, dan mencakup berjam-jam simulasi Monte Carlo Markov Chain (MCMC), bekerja dengan Teorema Bayesian, dan bahkan menonton video pendek tentang Superman yang mengubah waktu. pembalikan (untuk mendemonstrasikan konsep pembalikan waktu dalam pembelajaran mesin)



Juga salah satu mata kuliah inti adalah AC209a, yang berfokus pada dasar-dasar Pembelajaran Mesin dan Ilmu Data. Saya akan mengatakan bahwa kursus ini mencakup apa yang kebanyakan orang pikirkan ketika seseorang mengucapkan kata-kata "Ilmu Data" atau "Pembelajaran Mesin". Ini tentang mempelajari cara melakukan analisis data eksplorasi dan menjalankan regressor dan pengklasifikasi menggunakan sklearn. Sebagian besar tutorial berfokus pada pemahaman teknik ini dan cara terbaik untuk mengoptimalkannya untuk kumpulan data tertentu (dibutuhkan lebih dari sekadar menggunakan model.fit (X_train, y_train) ...). Kursus lainnya adalah AC209b: Bagian Ilmu Data Tambahan, yang merupakan perpanjangan dari kelas pertama. Pada dasarnya, ini adalah kursus Ilmu Data tentang steroid,di mana beberapa kuliah pertama dimulai dengan model aditif umum dan membuat splines yang bagus untuk menggambarkan kumpulan data. Namun, banyak hal dengan cepat meningkat menjadi menjalankan 2.500 model secara paralel menggunakan Dask pada cluster Kubernetes dalam upaya untuk melakukan pengoptimalan hyperparametrik pada jaringan neural buatan 100 lapisan. Pada saat yang sama, pada kenyataannya, itu bukanlah hal yang paling sulit yang kami lakukan - semua ini terjadi hanya pada minggu ketiga kuliah, jika kita berbicara tentang mata kuliah secara keseluruhan.itu bahkan bukan hal tersulit yang kami lakukan - itu semua terjadi hanya pada minggu ketiga kuliah, jika kita berbicara tentang kursus secara keseluruhan.itu bahkan bukan hal tersulit yang kami lakukan - itu semua terjadi hanya pada minggu ketiga kuliah, jika kita berbicara tentang kursus secara keseluruhan.



Saya juga telah mengambil kursus lain, termasuk CS181: Pembelajaran Mesin, yang mencakup dasar matematika dari regresi, klasifikasi, pembelajaran penguatan, dan area lain menggunakan metode berbasis frekuensi dan Bayesian; AM205: Metode Ilmiah untuk Memecahkan Persamaan Diferensial, dan AM225: Metode Lanjutan untuk Memecahkan Persamaan Diferensial Parsial. Ada banyak kursus lain yang juga bisa saya ambil selama sisa waktu saya di Harvard untuk memperdalam pengetahuan saya, seperti CS207: Teknik Sistem untuk Ilmu Komputasi, AM231: Teori Keputusan, atau AM221: Pengoptimalan Tingkat Lanjut. Saya juga harus menjelaskan bahwa masing-masing kursus ini memiliki tugas akhir yang dapat saya tambahkan ke portofolio saya.



Sekarang ke topik artikel - setelah sekian lama saya habiskan untuk belajar bagaimana menjadi Ilmuwan Data yang baik, apakah itu sepadan? Atau bisakah saya melakukan semuanya sendiri? Lebih khusus lagi, apakah layak bagi seseorang yang ingin mengejar karir ini sebagai investasi 1-2 tahun dan lebih dari $ 100.000 dalam gelar Ilmu Data?



Saya tidak berpikir bahwa semua yang saya pelajari dalam 18 bulan kursus Ilmu Data ini dapat saya pelajari dengan membaca buku, menonton video online, dan mempelajari dokumentasi berbagai paket perangkat lunak. Namun, saya yakin bahwa mendapatkan gelar dalam Ilmu Data dapat mempercepat karier seseorang, serta memberikan pengalaman berharga dengan proyek dunia nyata yang dapat didiskusikan selama wawancara dan digunakan dalam portofolio. Secara pribadi, saya butuh waktu bertahun-tahun untuk memikirkan cara mengoptimalkan jaringan neural 100 lapis yang berjalan pada cluster paralel di Google Cloud jika saya hanya duduk di rumah dan menonton video di Youtube - saya bahkan tidak dapat membayangkan bagaimana melakukannya.



Rasa ingin tahu tentang Ilmu Data sangat bagus dan saya ingin lebih banyak orang tertarik dengan topik ini. Sejak ledakan informasi, tampaknya dalam dekade mendatang data akan menjadi agama dunia baru, dan oleh karena itu tidak dapat dipungkiri bahwa dunia akan membutuhkan lebih banyak lagi spesialis dalam Ilmu Data. Namun, rasa ingin tahu dapat membawa Anda sangat jauh, dan memiliki selembar kertas yang menunjukkan bahwa Anda telah menghabiskan waktu, berinvestasi dalam keterampilan dan kebiasaan baik, dan menjadi ilmuwan data yang benar-benar berprestasi akan membedakan Anda dari yang lain. Ilmu Data tidak hanya ada sebagai kompetisi dari Kaggle, seperti yang dipikirkan beberapa orang.



Saran saya bagi mereka yang ingin melakukan Ilmu Data adalah mendapatkan dasar yang baik dalam statistik dan matematika, saya juga menyarankan Anda untuk mendapatkan beberapa pengalaman pemrograman dalam bahasa seperti Python dan R, serta menguasai pengembangan Linux. Sebagian besar mahasiswa ilmu komputer yang pernah saya lihat tampaknya berjuang dengan aspek terkait ilmu komputer seperti bekerja dengan kontainer Docker dan membuat serta mengelola kluster terdistribusi yang berjalan di beberapa infrastruktur cloud. Ada banyak keterampilan kompleks yang harus dikuasai untuk menjadi seorang Data Scientist yang berpengalaman, dan saya tentunya tidak dapat menyebut diri saya seorang ahli. Namun, dengan sedikit pengalaman, saya merasa cukup percaya diribahwa saya dapat terus mengembangkan keterampilan ilmu data dan pembelajaran mesin saya sendiri dan menerapkannya pada proyek dan penelitian industri tanpa takut melakukan "ilmu buruk".



Jika Anda ingin mengetahui apa itu kursus Ilmu Data, saya sarankan untuk melihat kursus online yang ditawarkan oleh universitas, yang sering kali memberi Anda kredit yang Anda butuhkan untuk menyelesaikan gelar Anda. Sekarang ada seorang mahasiswa di Harvard yang menyelesaikan 3 mata kuliah ilmu komputer di Sekolah Ekstensi dan sekarang memiliki gelar di bidang Ilmu dan Teknik Komputer dan merupakan salah satu asisten pengajar di mata kuliah Ilmu Data Lanjutan. Semuanya mungkin!






Kursus online dalam Ilmu Data dengan ijazah negara dari MISIS



gambar



NUST MISIS dan SkillFactory (sekolah online tentang Ilmu Data) telah menandatangani perjanjian untuk membuat program master online bersama "Ilmu Data", yang akan mencakup magang dalam proyek nyata, ruang obrolan dengan mentor, dan rencana pelatihan individu. Kelas akan dipimpin oleh Profesor NUST "MISA" dan praktisi Mail.ru Group, Yandex, bank Tinkoff dan perusahaan VTB Lamoda, BIOCAD, Alpha Insurance, dan lainnya.



Ini adalah yang pertama dalam kasus Rusia kemitraan dengan perusahaan pendidikan swasta universitas negeri model OPM (Online Manajemen Program). Mitra industri program ini adalah Mail.ru Group. Program ini juga didukung oleh NVidia, Rostelecom dan NTI University "20.35".



Lulusan sarjana dari segala arah akan dapat mendaftar di program master berdasarkan hasil ujian online.Anda dapat melamar sekarang dan hingga 10 Agustus.



Bahan yang berguna






All Articles