Persamaan paling menyedihkan dalam Ilmu Data

gambar



Persediaan di saputangan! Sekarang saya akan memberi tahu Anda seluruh kebenaran tentang statistik dan ilmu data. Anda akan memiliki air mata di mata Anda, saya berjanji kepada Anda.



KESIMPULAN = DATA + ASUMSI. Dengan kata lain, statistik tidak mengatakan yang sebenarnya.



Mitos umum



Kesalahpahaman berikut sering terdengar:



  • "Jika aku bisa menemukan persamaan yang benar, aku bisa belajar sesuatu yang tidak ada yang tahu sekarang."
  • "Jika saya menambahkan matematika ke data saya, saya dapat mengurangi ketidakpastian."
  • "Statistik bisa mengubah data menjadi kebenaran!"


Itu semua terdengar seperti dongeng, bukan? Karena merekalah yang.



Kenyataan pahit



Tidak ada keajaiban di dunia yang akan membantu Anda menciptakan sesuatu dari ketiadaan. Lupakan saja. Statistik tentang yang lain. Ambil kata saya untuk itu sebagai statistik. (Sebagai bonus, artikel ini akan menghemat banyak waktu untuk mengejar mimpi pipa ini .)



Sayangnya, banyak penipu akan mencoba meyakinkan Anda sebaliknya. Mereka akan menggunakan teknik standar, "Anda tidak tahu persamaan yang saya berikan kepada Anda, jadi akui keunggulan saya dan lakukan apa yang saya katakan!"



Jangan jatuh cinta pada kata-kata dari masalah ini.



gambar Tentang Pengarang: Cassie Kozyrkov adalah spesialis data dan statistik Afrika Selatan. Dia mendirikan Decision Intelligence di Google, di mana dia adalah Kepala Ilmuwan.




Jangan ulangi nasib Icarus



Pikirkan kesimpulan statistik (singkatnya, "statistik" ) sebagai lompatan dari apa yang kita ketahui (data biasa kita) ke apa yang tidak kita ketahui (parameter populasi kita).



Dalam statistik, apa yang Anda tahu bukanlah apa yang ingin Anda ketahui.
Anda mungkin menginginkan fakta tentang hari esok, tetapi Anda hanya dapat menarik kesimpulan berdasarkan kemarin. (Sangat menyebalkan ketika kita tidak mengingat masa depan, kan?) Mungkin Anda ingin tahu apa yang dipikirkan semua pengguna potensial Anda tentang produk Anda, tetapi Anda hanya dapat mewawancarai seratus orang. Maka Anda mendapatkan ketidakpastian!



Ini bukan sihir, ini spekulasi



Bagaimana seseorang bisa melompat dari apa yang Anda tahu ke apa yang tidak Anda ketahui? Anda membutuhkan jembatan untuk menjembatani jurang ini. Dan nama jembatan ini adalah asumsi. Biarkan saya mengingatkan Anda tentang persamaan yang paling menyakitkan dalam ilmu data: DATA + ASUMSI = PERAMALAN.



DATA + ASUMSI = Perkiraan.
(Anda dapat dengan mudah mengganti kata "prediksi" dengan "kesimpulan" atau "ramalan" jika lebih nyaman bagi Anda. Semua ini tentang hal yang sama: pernyataan tentang sesuatu yang Anda tidak tahu pasti.)



Apa itu asumsi?



Jika kita mengetahui semua fakta (dan kami yakin bahwa ini adalah fakta yang tidak terbantahkan), kita tidak perlu asumsi (atau statistik). Asumsi adalah potongan jelek yang Anda gunakan untuk menjembatani kesenjangan antara apa yang Anda ketahui dan apa yang ingin Anda ketahui. Ini adalah cheat yang harus Anda gunakan ketika Anda membutuhkan angka untuk berkumpul, tetapi datanya tidak cukup.



Asumsi adalah tambalan jelek yang Anda letakkan di tempat yang tidak ada informasi.
Bagaimana saya mengatakannya terus terang? Asumsi bukan fakta, itu omong kosong bahwa Anda membuat karena Anda tidak memiliki informasi yang cukup. Jika Anda sering meremehkan orang dengan interval super tepat Anda, ingatlah bahwa terlalu terburu untuk mengatakan bahwa apa yang didasarkan pada asumsi adalah benar. Lebih baik mengambil statistik sebagai alat untuk membuat keputusan. Alat ini tidak sempurna, tetapi masih lebih baik daripada tidak sama sekali (dalam situasi tertentu).



Statistik adalah upaya Anda untuk melakukan apa pun yang Anda bisa di dunia yang penuh ketidakpastian.
Asumsi - dan di Afrika, asumsi. Mereka tidak berubah menjadi fakta dengan gelombang tongkat sihir.



Membuat asumsi adalah bagian dari pengambilan keputusan



Tunjukkan pada saya setiap keputusan yang dibuat tanpa spekulasi. Saya dapat dengan mudah membuat daftar untuk Anda banyak asumsi implisit yang Anda buat dalam kehidupan nyata, bahkan tanpa berpikir.



Contoh: Ketika Anda membaca surat kabar, apakah Anda menganggap bahwa semua fakta diverifikasi? Ketika Anda membuat rencana untuk tahun 2020, apakah Anda berasumsi bahwa tidak akan ada pandemi global? Jika Anda menganalisis data, apakah Anda menganggap bahwa data itu direkam tanpa kesalahan? Apakah Anda mengharapkan generator nomor acak Anda untuk memberikan hasil acak? (Mereka biasanya tidak acak.) Ketika Anda memutuskan untuk melakukan pembelian online, apakah Anda berasumsi bahwa Anda akan dikenakan jumlah yang benar? Bagaimana dengan camilan terakhirmu? Apakah Anda menganggap dia tidak diracun? Ketika Anda minum obat, apakah Anda * tahu * tentang efek jangka panjangnya, atau ... apakah Anda mengantisipasinya?



Suka atau tidak suka, asumsi adalah bagian dari pengambilan keputusan.


Suka atau tidak suka, asumsi selalu menjadi bagian dari pengambilan keputusan. Gangguan dalam data dunia nyata harus terdiri dari sejumlah asumsi yang direkam. Pada saat yang sama, para ilmuwan data harus menggambarkan semua sudut yang harus mereka lewati.



Bahkan jika Anda memutuskan untuk membuang statistik, Anda mungkin menggunakan asumsi untuk memutuskan bagaimana untuk melanjutkan. Demi keselamatan Anda sendiri, Anda harus mengetahui asumsi yang mendasari keputusan Anda.



Bagaimana "keajaiban" statistik



Di bidang statistik, ada banyak alat yang memungkinkan Anda untuk merumuskan asumsi dan menggabungkannya dengan bukti. Inilah bagaimana keputusan yang cerdas dilahirkan. (Di sini Anda dapat melihat pengantar statistik saya selama 8 menit.)



Tidak masuk akal untuk mengharapkan bahwa analisis yang mencakup ketidakpastian dan probabilitas akan menjadi sumber kebenaran dengan huruf "P".
Ya, begitulah sihir statistik bekerja. Anda memilih asumsi yang harus dijalani, lalu menggabungkannya dengan data. Atas dasar persatuan yang tidak suci ini, Anda membuat keputusan yang cerdas. Itu semua statistik.



gambar



Itulah sebabnya analisis yang mencakup ketidakpastian dan probabilitas tidak pernah bisa menjadi sumber kebenaran dengan huruf "P". Tidak ada sihir gelap rahasia yang melakukan ini untukmu.



Dua orang bisa sampai pada kesimpulan yang sangat berbeda berdasarkan data yang sama! Cukup bagi mereka untuk membuat asumsi yang berbeda.
Untuk alasan yang sama, dua orang bisa sampai pada kesimpulan yang sangat berbeda berdasarkan data yang sama! Cukup bagi mereka untuk membuat asumsi yang berbeda. Statistik memberi Anda alat yang memungkinkan Anda membuat keputusan yang lebih tepat, tetapi tidak ada aturan tunggal untuk menggunakannya. Ini adalah alat pengambilan keputusan pribadi.



Seberapa baik Anda melakukan penelitian tergantung pada seberapa baik asumsi yang Anda buat.



Bagaimana dengan sains?



Apa yang terjadi ketika seorang ilmuwan menggunakan statistik untuk menarik kesimpulan? Dia hanya membentuk opini dan memutuskan untuk membagikannya dengan seluruh dunia. Ini tidak buruk, para ilmuwan harus menarik kesimpulan dari waktu ke waktu dengan kehendak, bukan dengan kehendak, ini adalah pekerjaan mereka. Saya menyarankan bahwa kadang-kadang kesimpulan ini dapat diperhatikan.



Tidak dengan kemauan, para ilmuwan secara berkala harus menarik kesimpulan berdasarkan statistik, seperti pekerjaan mereka.
Saya menikmati mendengarkan saran dari orang-orang yang memiliki lebih banyak informasi dan pengalaman daripada saya, tetapi saya tidak pernah membiarkan diri saya mengacaukan pendapat dengan fakta. Ada ilmuwan yang fasih dalam probabilitas dan bekerja dengannya. Namun demikian, saya juga bertemu dengan para ilmuwan yang membuat begitu banyak kesalahan statistik sehingga mereka tidak dapat disapu selama sisa hidup saya. Pendapat tidak dapat (dan tidak seharusnya) memengaruhi orang-orang yang tidak siap untuk merumuskan asumsi untuk diri mereka sendiri. Pendapat ini diperoleh melalui kombinasi bukti dan asumsi yang tidak diverifikasi. Mereka tidak dapat dianggap kompeten.



Ringkasan



Pikirkan statistik sebagai ilmu yang dapat membantu Anda membuat keputusan ketika Anda tidak yakin akan sesuatu. Ini adalah kerangka kerja yang membantu Anda membuat keputusan berdasarkan informasi tanpa informasi. Tidak ada satu pun cara yang tepat untuk menggunakan statistik.



Tidak, itu tidak memberi Anda fakta yang Anda inginkan. Ini memberi Anda apa yang Anda butuhkan untuk mengatasi kekurangan fakta. Maksud statistik adalah membantu Anda melakukan segala daya Anda di dunia yang penuh ketidakpastian.



Anda hanya perlu membuat asumsi.



Terjemahan: Diana Sheremyeva



gambar



Pelajari lebih lanjut tentang cara mendapatkan profesi yang dicari dari awal atau Tingkatkan keterampilan dan gaji dengan menyelesaikan kursus online berbayar SkillFactory:











All Articles