Pemrosesan awal data

Halo! Saya seorang pengembang web dan telah tertarik dengan pembelajaran mesin selama beberapa tahun sekarang. Karena di tempat kerja sehari-hari saya harus menyelesaikan masalah yang kurang menarik bagi saya, tidak terkait dengan pembelajaran mesin, dari waktu ke waktu saya lupa apa yang pernah saya baca atau gunakan. Untuk membuat memo untuk diri saya sendiri, memperkuat pengetahuan saya, dan membagikannya dengan orang lain, saya memutuskan untuk menulis seri artikel ini tentang pembelajaran mesin. Saya akan mulai dengan pemrosesan awal data.



Pada artikel ini saya akan berbicara tentang masalah apa yang terjadi dengan data, bagaimana mengatasinya, dan juga tentang metode yang paling umum digunakan untuk menyiapkan data sebelum memasukkannya ke model yang berbeda.



Lewati



Pertimbangkan dataset berikut. Sejujurnya saya yang menemukannya dan akan merujuknya lebih lanjut di artikel ini.



Indo Nama Disiplin olahraga Negara Tahun lahir atlet Berat badan atlet Medali
1 Ivan Mendayung Federasi Rusia 1985 265 B
2 Tinju Inggris Raya 1986 54 S
3 Kim Gulat Yunani-Romawi Korea Utara 1986 93 G
4 Oleg Gulat Yunani-Romawi 1984 B
lima Pedro Mendayung Brazil 97 N
6 Valery Mendayung Federasi Rusia 2004 97 N


, . . β€” , . , .



, "" , . , , .



β€” , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . β€” , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . β€” ( ).



ID
1 1985 265 B


, , , , . :



sayaQR=Q3-Q1,



Q1 β€” β€” , 25% . Q3 β€” β€” , 75% .



, , , : :



[Q1-1.5sayaQR,Q3+1.5sayaQR]



.





β€” . , [0, 1]. , . , . (, , ) .



. , , . , .



xnew=xHaild-xmsayanxmSebuahx-xmsayan



Z-. Z- :



(-3Οƒ[X],3Οƒ[X]),



Οƒ[X] β€” X.



Z- .



xnew=xHaild-M[X]Οƒ[X]



M[X] β€” X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" β€” 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



Terima kasih telah membaca atau menjelajahi di sini. Saya telah menjelaskan tidak semua metode preprocessing, dan artikel ini hampir tidak berguna bagi data scientist profesional. Namun, jika Anda seorang pemula dan tidak tahu apa yang harus dilakukan dengan data Anda, Anda dapat kembali ke sini dengan aman. Semoga berhasil dengan pembelajaran dan tugas menarik Anda!



Daftar sumber



Saya bukan ilmuwan dan artikel ini tidak mengklaim ilmiah. Oleh karena itu, saya tidak akan menyusun sumber menurut GOST. Maafkan saya untuk ini.



  1. Kuliah kursus dari Yandex dan HSE "Pengantar Pembelajaran Mesin" di kursor.
  2. Standardisasi, atau rata-rata penghapusan dan penskalaan varians - dokumentasi perpustakaan sklearn
  3. Tugas persiapan data pembelajaran mesin tingkat lanjut - Microsoft



All Articles