Halo! Saya seorang pengembang web dan telah tertarik dengan pembelajaran mesin selama beberapa tahun sekarang. Karena di tempat kerja sehari-hari saya harus menyelesaikan masalah yang kurang menarik bagi saya, tidak terkait dengan pembelajaran mesin, dari waktu ke waktu saya lupa apa yang pernah saya baca atau gunakan. Untuk membuat memo untuk diri saya sendiri, memperkuat pengetahuan saya, dan membagikannya dengan orang lain, saya memutuskan untuk menulis seri artikel ini tentang pembelajaran mesin. Saya akan mulai dengan pemrosesan awal data.
Pada artikel ini saya akan berbicara tentang masalah apa yang terjadi dengan data, bagaimana mengatasinya, dan juga tentang metode yang paling umum digunakan untuk menyiapkan data sebelum memasukkannya ke model yang berbeda.
Lewati
Pertimbangkan dataset berikut. Sejujurnya saya yang menemukannya dan akan merujuknya lebih lanjut di artikel ini.
Indo | Nama | Disiplin olahraga | Negara | Tahun lahir atlet | Berat badan atlet | Medali |
---|---|---|---|---|---|---|
1 | Ivan | Mendayung | Federasi Rusia | 1985 | 265 | B |
2 | Tinju | Inggris Raya | 1986 | 54 | S | |
3 | Kim | Gulat Yunani-Romawi | Korea Utara | 1986 | 93 | G |
4 | Oleg | Gulat Yunani-Romawi | 1984 | B | ||
lima | Pedro | Mendayung | Brazil | 97 | N | |
6 | Valery | Mendayung | Federasi Rusia | 2004 | 97 | N |
, . . β , . , .
, "" , . , , .
β , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . β , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . β ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
β β , 25% . β β , 75% .
, , , : :
.
β . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
β X.
Z- .
M[X] β X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" β 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
Terima kasih telah membaca atau menjelajahi di sini. Saya telah menjelaskan tidak semua metode preprocessing, dan artikel ini hampir tidak berguna bagi data scientist profesional. Namun, jika Anda seorang pemula dan tidak tahu apa yang harus dilakukan dengan data Anda, Anda dapat kembali ke sini dengan aman. Semoga berhasil dengan pembelajaran dan tugas menarik Anda!
Daftar sumber
Saya bukan ilmuwan dan artikel ini tidak mengklaim ilmiah. Oleh karena itu, saya tidak akan menyusun sumber menurut GOST. Maafkan saya untuk ini.