Halo, Habr!
Kami di Reksoft telah menerjemahkan artikel Pilihan Fitur dalam Pembelajaran Mesin ke dalam bahasa Rusia . Kami berharap ini akan bermanfaat bagi semua orang yang tidak peduli dengan topik tersebut.
Di dunia nyata, data tidak selalu sebersih yang terkadang dipikirkan pelanggan bisnis. Itulah sebabnya data mining dan data wrangling sangat dibutuhkan. Ini membantu mengidentifikasi makna dan pola yang hilang dalam data terstruktur kueri yang tidak dapat diidentifikasi oleh manusia. Pembelajaran Mesin berguna untuk menemukan dan menggunakan pola ini untuk memprediksi hasil menggunakan koneksi data yang ditemukan.
Untuk memahami algoritme apa pun, Anda perlu melihat semua variabel dalam data dan mencari tahu apa yang diwakili oleh variabel tersebut. Hal ini penting karena alasan hasil didasarkan pada pemahaman data. Jika data Anda berisi 5 atau bahkan 50 variabel, Anda dapat memeriksa semuanya. Bagaimana jika jumlahnya 200? Maka tidak akan ada cukup waktu untuk memeriksa setiap variabel individu. Selain itu, beberapa algoritme tidak berfungsi untuk data kategori, dan kemudian semua kolom kategori harus dikuantifikasi (mungkin terlihat kuantitatif, tetapi metrik akan menunjukkan bahwa mereka bersifat kategoris) untuk menambahkannya ke model. Dengan demikian jumlah variabel bertambah, ada sekitar 500. Apa yang harus dilakukan sekarang? Anda mungkin berpikir bahwa pengurangan dimensi adalah jawabannya. Algoritma reduksi dimensi mengurangi jumlah parametertetapi secara negatif mempengaruhi interpretabilitas. Bagaimana jika ada teknik lain yang menghilangkan ciri-ciri tersebut sambil tetap membuat sisanya mudah dipahami dan ditafsirkan?
Bergantung pada apakah analisis didasarkan pada regresi atau klasifikasi, algoritme pemilihan fitur mungkin berbeda, tetapi gagasan utama penerapannya tetap sama.
Variabel berkorelasi kuat
Variabel yang sangat berkorelasi satu sama lain memberikan model informasi yang sama, oleh karena itu, tidak perlu menggunakan semuanya untuk analisis. Misalnya, jika kumpulan data berisi atribut "Waktu Online" dan "Lalu Lintas yang Digunakan", kami dapat berasumsi bahwa keduanya akan berkorelasi, dan kami akan melihat korelasi yang kuat meskipun kami memilih sampel data yang tidak bias. Dalam hal ini, hanya satu dari variabel ini yang diperlukan dalam model. Jika keduanya digunakan, model akan overfit dan bias terhadap satu fitur tertentu.
Nilai-P
, , โ . p-, . , p-, - , , , , (target).
โ , . , , , . , , . . p-, . , , ( ).
, . . ( ), . p- . .
RFE / . , ยซ ยป , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).
, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , ยซ ยป. , .
(bias) (variance). , (overfit) . , . , . ! :
L1 โ : (.. ). , , , (.. , ).
L2 โ Ridge: Ridge . Ridge , .
Ridge , , , Elastic-Net.
, : . โ , , , .
! !