Normalisasi data pintar: data kategorikal dan ordinal, fitur "berpasangan"

Artikel ini ad hoc. The terakhir kali saya melihat nuansa dan tantangan metode data normalisasi yang berbeda. Dan hanya setelah publikasi saya menyadari bahwa saya tidak menyebutkan beberapa detail penting. Bagi beberapa orang, mereka akan tampak jelas, tetapi, menurut saya, lebih baik mengatakannya secara eksplisit.



Normalisasi data kategorikal



Agar tidak mengacaukan teks dengan hal-hal mendasar, saya akan berasumsi bahwa Anda tahu apa itu data kategorikal dan ordinal, dan bagaimana perbedaannya dari yang lain.



Jelas, normalisasi apa pun hanya dapat dilakukan pada data numerik. Oleh karena itu, jika hanya angka yang cocok untuk algoritme / program Anda untuk pekerjaan lebih lanjut, maka perlu untuk mengonversi semua jenis lainnya ke angka tersebut.



Data kategoris sederhana. Jika tujuannya bukan hanya untuk menyandikan (mengenkripsi) nilai dengan beberapa angka, maka satu-satunya pilihan yang tersedia adalah merepresentasikannya sebagai nilai "1" - "0" (YA - TIDAK) untuk setiap kategori yang memungkinkan. Inilah yang disebut pengkodean one-hot . Jika, alih-alih satu fitur kategorikal, fitur "boolean" baru muncul sebanyak mungkin kategori.





Dan itu saja.



, .



, , .



, /โ€โ€ , โ€” . . .



, , , , โ€œโ€ โ€œโ€. โ€œ โ€, , โ€œโ€ . , , โ€” .



, - , ยซ , 0 1ยป. , . , .





. โ€œโ€ ( ) . , . .



1. . ( ). ( ) , , , . , , .





2. ( ). , โ€œโ€ .



, , . โ€” , , , .



โ€” ..





โ€œโ€



, , . , .



. โ€œโ€ , . โ€œโ€ .



. , , , . โ€” , , , ( ). .



โ€œโ€ , โ€œโ€. .





. . , , 100 , 100 . 100 .



,





. โ€œโ€ , , . - , .



โ€œโ€ ( ) โ€œโ€ .





, , โ€œโ€. .





โ€œโ€ โ€œโ€ .



. /, . โ€œ-โ€ ( ), โ€œ-โ€ ( ). , - , โ€œ-โ€ , โ€œ-โ€.





. . โ€œโ€ .



, , (- ), โ€œ-โ€, , โ€œ-โ€, . .. โ€œโ€.



, โ€œโ€, .



, โ€” - , . - .



P.S. โ€” , - AdjustedScaler, โ€œโ€ .




All Articles