
Saat bekerja dengan data besar, kesalahan tidak bisa dihindari. Anda perlu mendapatkan dasar data, memprioritaskan, mengoptimalkan, memvisualisasikan data, mendapatkan ide yang tepat. Menurut survei , 85% perusahaan berjuang untuk pengelolaan data, tetapi hanya 37% yang melaporkan keberhasilan di bidang ini. Dalam praktiknya, mempelajari pengalaman negatif itu sulit, karena tidak ada yang suka membicarakan kegagalan. Analis akan dengan senang hati berbicara tentang kesuksesan, tetapi segera setelah terjadi kesalahan, bersiaplah untuk mendengar tentang "akumulasi kebisingan", "korelasi palsu", dan "endogenitas acak", dan tanpa penjelasan spesifik. Apakah masalah dengan big data hanya bersifat teoritis?
Hari ini kita akan mengeksplorasi pengalaman kesalahan nyata yang berdampak nyata pada pengguna dan analis.
Kesalahan pengambilan sampel

Dalam artikel β Data besar: Kesalahan besar? Β»Teringat cerita menarik dengan startup Street Bump. Perusahaan mengundang warga Boston untuk memantau kondisi permukaan jalan menggunakan aplikasi mobile. Perangkat lunak mencatat posisi smartphone dan penyimpangan abnormal dari norma: lubang, gundukan, lubang, dll. Data yang diterima dikirim secara real time ke penerima yang diinginkan untuk layanan kota.
Namun, pada titik tertentu, kantor walikota memperhatikan bahwa ada lebih banyak keluhan dari daerah kaya daripada dari masyarakat miskin. Analisis situasi menunjukkan bahwa penduduk kaya memiliki ponsel dengan koneksi permanen ke Internet, lebih sering mengemudi, dan merupakan pengguna aktif berbagai aplikasi, termasuk Street Bump.
Akibatnya, objek utama penelitian ini adalah peristiwa dalam aplikasi, tetapi unit minat yang signifikan secara statistik seharusnya adalah orang yang menggunakan perangkat seluler. Mengingat demografi pengguna ponsel cerdas (pada saat itu, kebanyakan orang kulit putih Amerika dengan pendapatan menengah dan tinggi), menjadi jelas betapa tidak dapat diandalkannya data tersebut.
Masalah bias yang tidak disengaja telah mengembara dari satu studi ke studi lainnya selama beberapa dekade: akan selalu ada orang yang menggunakan jejaring sosial, aplikasi, atau tagar lebih aktif daripada yang lain. Datanya sendiri tidak cukup - kualitas adalah yang terpenting. Dengan cara yang sama kuesioner memengaruhi hasil survei, platform elektronik yang digunakan untuk mengumpulkan data mendistorsi hasil penelitian dengan memengaruhi perilaku orang ketika bekerja dengan platform ini.
Menurut penulis studi "Review of Selectivity Processing Methods in Big Data Sources", ada banyak sumber data besar yang tidak dimaksudkan untuk analisis statistik yang akurat - survei Internet, tampilan halaman di Twitter dan Wikipedia, Google Trends, analisis hashtag, dll.
Salah satu kesalahan paling mencolok dari jenis ini adalah memprediksi kemenangan Hillary Clinton dalam pemilihan presiden AS 2016. Menurut jajak pendapat Reuters / Ipsos yang dirilis beberapa jam sebelum dimulainya pemungutan suara, Clinton kemungkinan besar 90% akan menang. Para peneliti menyarankan bahwa secara metodologis, survei itu sendiri dapat dilakukan dengan sempurna, tetapi pangkalan tersebut, yang terdiri dari 15 ribu orang di 50 negara bagian, berperilaku tidak rasional - kemungkinan besar, banyak yang tidak mengakui bahwa mereka ingin memilih Trump.
Kesalahan korelasi
Korelasi yang tidak dapat dipahami dan kausalitas yang membingungkan sering kali membingungkan para ilmuwan data pemula. Hasilnya adalah model yang sempurna dalam hal matematika dan sama sekali tidak dapat dijalankan dalam kenyataan.

Grafik di atas menunjukkan jumlah penampakan UFO sejak 1963. Jumlah kasus yang dilaporkan dari database Pusat Pelaporan UFO Nasional secara kasar tetap sama selama bertahun-tahun, tetapi pada tahun 1993 ada lonjakan tajam.
Jadi, kita dapat membuat kesimpulan yang sepenuhnya logis bahwa 27 tahun yang lalu, alien mempelajari penduduk bumi dengan sungguh-sungguh. Alasan sebenarnya adalah episode pertama The X-Files dirilis pada September 1993 (pada puncaknya ditonton oleh lebih dari 25 juta orang di Amerika Serikat).

Sekarang lihat data yang menunjukkan frekuensi penampakan UFO tergantung pada waktu dan hari dalam seminggu: frekuensi penampakan tertinggi diwarnai kuning-oranye. Jelas, alien lebih sering mendarat di Bumi pada akhir pekan karena mereka pergi bekerja di waktu-waktu lain. Jadi, meneliti orang adalah hobi bagi mereka?
Korelasi lucu ini memiliki implikasi yang luas. Misalnya, studi tentang Akses Mencetak di Komunitas Berpenghasilan Rendah menemukan bahwa siswa dengan akses ke lebih banyak buku mendapatkan nilai yang lebih baik. Dipandu oleh data karya ilmiah, otoritas Philadelphia (AS) mulai menata ulang sistem pendidikan.
Proyek lima tahun ini melibatkan konversi 32 perpustakaan untuk memberikan kesempatan yang sama bagi semua anak dan keluarga di Philadelphia. Sekilas, rencananya tampak bagus, tetapi sayangnya penelitian ini tidak memperhitungkan apakah anak-anak benar-benar membaca buku - hanya melihat pertanyaan apakah buku tersedia atau tidak.
Akibatnya, tidak ada hasil yang signifikan. Anak-anak yang tidak membaca buku sebelum belajar tidak tiba-tiba jatuh cinta pada membaca. Kota kehilangan jutaan dolar, nilai anak-anak sekolah dari daerah tertinggal tidak meningkat, dan anak-anak yang dibesarkan karena cinta buku terus belajar seperti mereka.
Data hilang

( c )
Kadang-kadang sampelnya mungkin benar, tetapi penulis kehilangan begitu saja data yang mereka butuhkan untuk dianalisis. Ini terjadi dalam sebuah karya yang didistribusikan secara luas di seluruh dunia dengan nama "Freakonomics". Buku, yang total sirkulasi melebihi 4 juta eksemplar, mengeksplorasi fenomena munculnya hubungan sebab-akibat yang tidak jelas. Misalnya, di antara ide-ide terkenal dari buku tersebut, idenya adalah bahwa alasan penurunan kejahatan remaja di Amerika Serikat bukanlah pertumbuhan ekonomi dan budaya, tetapi legalisasi aborsi.
Penulis "Freakonomics", profesor ekonomi di Universitas Chicago Stephen Levitt dan jurnalis Stephen Dubner, mengakuinya beberapa tahun kemudianbahwa tidak semua angka yang dikumpulkan dimasukkan dalam survei aborsi akhir, karena datanya hilang begitu saja. Levitt menjelaskan kesalahan kalkulasi metodologis dengan fakta bahwa pada saat itu "mereka sangat lelah", dan merujuk pada tidak pentingnya statistik data ini untuk kesimpulan keseluruhan penelitian.
Apakah aborsi benar-benar mengurangi kejahatan di masa depan atau tidak masih bisa diperdebatkan. Namun, penulis telah memperhatikan banyak kesalahan lain, dan beberapa di antaranya sangat mirip dengan situasi popularitas ufologi di tahun 1990-an.
Kesalahan analisis

( c )
Biotek telah menjadi rock and roll baru bagi wirausahawan teknologi. Ini juga disebut "pasar TI baru" dan bahkan "dunia kripto baru", mengacu pada ledakan popularitas di antara investor perusahaan yang terlibat dalam pemrosesan informasi biomedis.
Apakah biomarker dan data kultur sel adalah "minyak baru" atau bukan adalah masalah sekunder. Konsekuensi dari memompa uang cepat ke dalam industri sangat menarik. Bagaimanapun, bioteknologi dapat menjadi ancaman tidak hanya untuk dompet VC, tetapi juga secara langsung mempengaruhi kesehatan manusia.
Misalnya, seperti yang ditunjukkanahli genetika Stephen Lipkin, adalah mungkin bagi genom untuk melakukan analisis berkualitas tinggi, tetapi informasi tentang kendali mutu seringkali tertutup bagi dokter dan pasien. Terkadang, sebelum memesan tes, Anda mungkin tidak mengetahui terlebih dahulu seberapa dalam cakupan pengurutannya. Ketika gen tidak cukup dibaca untuk memberikan cakupan yang memadai, perangkat lunak menemukan mutasi di tempat yang sebenarnya tidak ada. Seringkali, kita tidak tahu algoritma mana yang digunakan untuk mengklasifikasikan alel gen menjadi menguntungkan dan berbahaya.
The besarbanyaknya karya tulis ilmiah di bidang genetika yang mengandung kesalahan. Sebuah tim peneliti Australia menganalisis sekitar 3,6 ribu makalah genetik yang diterbitkan di sejumlah jurnal ilmiah terkemuka. Hasilnya, ditemukan bahwa sekitar satu dari lima karya memasukkan gen kesalahan dalam daftar mereka.
Sumber kesalahan ini sangat mencolok: alih-alih menggunakan bahasa khusus untuk pemrosesan data statistik, ilmuwan merangkum semua data dalam spreadsheet Excel. Excel secara otomatis mengubah nama gen menjadi tanggal kalender atau nomor acak. Dan tidak mungkin untuk memeriksa ulang ribuan dan ribuan baris secara manual.
Dalam literatur ilmiah, gen sering dilambangkan dengan simbol: misalnya, gen Septin-2 disingkat menjadi SEPT2, dan Membrane Associated Ring Finger (C3HC4) 1 - menjadi MARCH1. Excel menggunakan pengaturan default untuk mengganti string ini dengan tanggal. Para peneliti mencatat bahwa mereka tidak menjadi pelopor masalah - hal itu telah ditunjukkan lebih dari satu dekade lalu.
Dalam kasus lain, Excel memberikan pukulan besar bagi ekonomi. Ekonom terkenal dari Universitas Harvard, Carmen Reinhart dan Kenneth Rogoff, menganalisis 3.700 kasus berbeda dari peningkatan utang publik dan dampaknya terhadap pertumbuhan ekonomi di 42 negara selama 200 tahun dalam penelitian mereka.
Karya "Pertumbuhan Selama Waktu Hutang" dengan tegas menunjukkan bahwa ketika tingkat hutang publik di bawah 90% dari PDB, secara praktis tidak mempengaruhi pertumbuhan ekonomi. Jika utang nasional melebihi 90% dari PDB, tingkat pertumbuhan median turun sebesar 1%.
Studi ini berdampak besar pada bagaimana dunia bergulat dengan krisis ekonomi terkini. Pekerjaan tersebut telah dikutip secara luas untuk membenarkan pemotongan anggaran di AS dan Eropa.
Namun, beberapa tahun kemudian, Thomas Herndorn, Michael Ash, dan Robert Pollin dari Universitas Massachusetts, setelah menganalisis karya Rogoff dan Reinhart poin demi poin , mengungkapkan ketidakakuratan yang biasa terjadi saat bekerja dengan Excel. Statistik, pada kenyataannya, tidak menunjukkan hubungan apapun antara tingkat pertumbuhan PDB dan hutang publik.
Kesimpulan: perbaikan bug sebagai sumber bug

( c )
Mengingat banyaknya informasi untuk dianalisis, beberapa kesalahpahaman muncul hanya karena ini adalah sifat dari segala sesuatu. Jika kesalahan jarang terjadi dan mendekati acak, kesimpulan dari analisis akhir mungkin tidak terpengaruh. Dalam beberapa kasus, tidak ada gunanya mengatasinya, karena perjuangan dengan kesalahan dalam pengumpulan data dapat menyebabkan kesalahan baru.
Ahli statistik terkenal Edward Deming merumuskan deskripsi paradoks ini sebagai berikut: menyiapkan proses yang stabil untuk mengkompensasi penyimpangan kecil yang tersedia untuk mencapai hasil terbaik dapat menyebabkan hasil yang lebih buruk daripada jika tidak ada intervensi dalam proses tersebut.
Untuk menggambarkan masalah dengan data koreksi berlebih, kami menggunakan simulasi koreksi dalam proses menjatuhkan bola secara tidak sengaja melalui corong. Prosesnya dapat disesuaikan menggunakan beberapa aturan, yang tujuan utamanya adalah memberikan kesempatan untuk sedekat mungkin dengan pusat corong. Namun, semakin Anda mengikuti aturan, semakin membuat frustrasi hasilnya.
Cara termudah untuk bereksperimen dengan corong adalah secara online, yang simulator telah dibuat . Tulis di komentar hasil apa yang telah Anda capai.
Kami dapat mengajari Anda cara menganalisis big data dengan benar di MADE Academy , proyek pendidikan gratis dari Mail.ru Group. Kami menerima aplikasi untuk pelatihan hingga 1 Agustus.