Daftar periksa sebelum mengkalibrasi model pembelajaran mesin

Seringkali, secara teori, pengoperasian model terlihat sederhana dan rapi, tetapi ketika Anda mendapatkan sekumpulan data nyata dan tugas menghitungnya, itu dapat menyebabkan pingsan. Kami memberikan 7 tip berguna dari Peter Lukyanchenko, mantan Pemimpin Tim Analytics di Lamoda dan ketua kursus online “Matematika untuk Ilmu Data. Tingkat lanjutan " .










Halo! Ini adalah Pyotr Lukyanchenko (PetrPavlovich). Daftar periksa saya adalah kumpulan pemikiran yang telah berkembang selama bertahun-tahun penuh dengan gundukan dan kesalahan.



1. Pernyataan masalah



Selalu periksa kembali masalah yang ingin Anda hitung. Apa yang akan kamu lakukan? Untuk mengklasifikasikan sesuatu? Menghitung? Pemahaman yang jelas tentang tugas akan menentukan tindakan Anda selanjutnya.



2. Data (Sampah Masuk = Sampah Keluar)



Selalu pastikan tidak ada duplikat dalam data. Ungkapan “Sampah Masuk = Sampah Keluar” artinya jika data terkumpul entah bagaimana, maka hasilnya akan keluar entah bagaimana. Ngomong-ngomong, itulah mengapa ada profesi Data Engineer yang terpisah - spesialis yang, seringkali dengan kerja keras, membersihkan data yang hanya menjijikkan. Mereka tahu bagaimana mengidentifikasi penyimpangan pencilan di dalamnya, menghapusnya, memperbaikinya, sehingga nanti analis dapat bekerja dengan kumpulan data berkualitas tinggi.



3. Bidang subjek



Ketahui selalu domain tempat Anda membuat regresi. Ini akan membantu menguji hipotesis untuk realisme. Dan karena pemahaman itu, Anda akan menghindari upaya sia-sia untuk menghitung regresi konyol dari rangkaian "Bagaimana kecepatan mencairnya gletser memengaruhi pertumbuhan populasi kelinci di Australia."



4. Model logika



Anda tidak dapat bekerja tanpa logika. Memahami logika model, apakah ada logika dalam hubungan ini sangatlah penting. Dalam hal ini, hasil yang diperoleh bahkan mungkin berkualitas tinggi, tetapi pada saat yang sama tidak dapat diinterpretasikan. Oleh karena itu, jika tampaknya tidak ada logika, lebih baik tidak menghitung regresi, karena dalam hal ini akan berubah menjadi kebodohan, yang akan mengarah pada keputusan baru yang salah.



5. Metrik pada tes lebih penting daripada metrik pada pelatihan



Saat kami melatih regresi, kami menggunakan metrik untuk melatih. Ini adalah metrik MSE atau alternatif. Dan ketika kita telah menghitung banyak regresi, maka kita dapat membandingkannya satu sama lain. Metrik R-square sudah digunakan di sini.



Metrik pelatihan regresi dan metrik evaluasi (pengujian) regresi adalah dua metrik yang berbeda. Dan jika sebuah model telah dipelajari dengan baik, ini tidak berarti model tersebut akan diuji dengan baik. Masing-masing metrik ini harus dipilih dengan cermat dan benar.



6 semakin sederhana regresi, semakin baik hasilnya



Dan semakin sulit regresi, semakin besar kemungkinan terjadi kesalahan.



7. Lebih baik regresi yang baik sekarang daripada regresi sempurna dalam satu jam



Jika Anda telah menemukan solusi regresi yang baik, sebaiknya berhenti di situ. Jangan mencoba melakukan sesuatu yang sempurna, sangat presisi. Kadang-kadang mencoba untuk meningkatkan dapat memperburuk keadaan. Ya, saya ingin mencapai 100 prediksi, tetapi dalam kehidupan nyata tidak ada kualitas yang 100%. Bahkan metrik kualitas terbaik di Kaggle adalah 96-98%.



Sekarang dalam kalibrasi model ada banyak tenaga intelektual manual yang membutuhkan keterampilan tertentu dari seorang spesialis. Ya, kita semua berjuang untuk ML otomatis, mis. Pilihan otomatis Python untuk model terbaik. Tetapi sejauh ini ini adalah keadaan yang tidak dapat dicapai, dan tanpa memahami peralatan matematika, tidak mungkin untuk memilih model yang tepat. Bayangkan Anda mendapatkan deret waktu yang mirip dengan bagan di bawah, dan Anda ditanya "Harap prediksi ...".







Pada set tanggal seperti itu, Anda dapat membuat regresi berbeda dalam jumlah besar, yang masing-masing akan memberikan prakiraannya sendiri. Berikut cara memilih prakiraan terbaik, cara mengidentifikasi pencilan dalam data, dan banyak hal praktis lainnya yang kami lalui dalam kursus lanjutan Matematika untuk Ilmu Data .



Oleh karena itu, jika Anda sudah bekerja atau baru akan pindah ke bidang Ilmu Data, tetapi Anda tahu matematika pada tingkat "lulus sesuatu di institut", di sini Anda akan mendapatkan semua keterampilan yang hilang.



Anda dapat menemukan informasi yang lebih berguna di saluran telegram penulis Peter .






Baca lebih banyak:






All Articles