Semua data lake (rawa data), QCD (corporate graveyard of data), data mining (lihat, jangan dirusak), tata kelola data (menjadi budak data Anda) dan sejenisnya tidak hilang dari cerita mereka, secara berkala diganti satu sama lain. Umur HYIP lain jarang melebihi satu atau dua tahun, tetapi jika Anda mau, teknologi yang hampir terlupakan akan digali untuk Anda dengan senang hati.
Pada saat yang sama, kurma besar dijual sebagai peti ajaib tempat Anda bisa mendapatkan berbagai keajaiban: baik karpet terbang, atau sepatu bot berjalan, atau bahkan ratu shamakhan (yang relevan). Tetapi, sebagai aturan, karpet terbang dimakan oleh ngengat ajaib - dan itu tidak lagi terbang, sol sepatunya terlepas - dan berjalan di dalamnya tidak nyaman, tetapi tidak ada yang bisa dikatakan tentang ratu jompo.
Pada artikel ini saya akan mencoba berbicara tentang teknologi lama yang bagus yang masih berfungsi. Tentang apa yang dapat dipelajari dari teknologi HYIP di atas - dan bagaimana menggunakan semua ini untuk manusia biasa, seperti kita, tanpa mempekerjakan sekelompok ilmuwan data dengan gaji> 10 ribu $ per bulan.
Artikel melanjutkan siklus:
Membangun Perusahaan Impian: Data Master dan Integrasi
Membangun Perusahaan Impian: Mengelola Kualitas Data
Kandungan
1. Data besar: pernyataan masalah
2. Data master: klasik abadi
3. Cara menyimpan data: apakah Anda memerlukan QCD
4. Normalisasi, atau mengapa Anda membutuhkan rawa data
5. Mengapa ilmuwan data mendapatkan lebih banyak analis dan melakukan lebih sedikit ?
6. Data bus vs microservices
7. Bagaimana agar tidak menjadi hype sama sekali?
1. Data besar: pernyataan masalah
Peran big data dalam perkembangan peradaban modern sangat mengesankan. Tapi tidak untuk alasan yang Anda pikirkan.
Jika Internet di setiap desa dan setiap telepon muncul berkat pornografi dan jejaring sosial (pembawa pesan), maka data besar menyumbangkan triliunan dolar kepada produsen hard drive dan RAM.
Masalahnya, manfaat nyata dari big data modern (dalam arti luas) bagi seluruh umat manusia hampir sama dengan manfaat pornografi, yaitu. dengan beberapa pengecualian ... nol!
Bagaimana, Anda akan terkejut. Lagi pula, konsultan dan tenaga penjualan mana pun memberi tahu selusin contoh, dari General Electric dengan diagnostik mereka tentang kondisi mesin pesawat, hingga iklan bertarget dari Google!
Masalahnya, lebih tepatnya, adalah pengulangan hasil. Saya akan memberi tahu Anda sebuah rahasia bahwa tenaga penjualan data besar memiliki bangku pendek. Jika Anda meminta mereka untuk beberapa contoh lagi, daftarnya akan berakhir di sepuluh yang kedua. Saya yakin mereka akan dapat menyebutkan lebih banyak lagi messenger dan situs porno :) karena secara fisik jumlahnya lebih banyak.
Tentu ada hasil dari kerja para data scientist, hanya saja jarang memuaskan pelanggan. Karena, setelah menghabiskan satu tahun kerja dan beberapa juta untuk peralatan dan gaji, pada akhirnya mereka memberikan kesimpulan dan pola yang sama sekali sepele yang jelas bagi manajer lini atau spesialis lapangan mana pun. Misalnya, produk best seller ditempatkan setinggi mata manusia.
Dan General Electric telah membangun keunggulan kompetitifnya berdasarkan metode analisis matematis dan statistik yang dapat ditemukan di setiap kursus matematika di universitas. Konsep big data belum ada saat itu.
Tetapi Anda tidak dapat melakukan hype pada kalkulus, dan manajer besar tidak mungkin mendengar tentang metode Fourier dan Cauchy yang berusia dua ratus tahun. Lagi pula, semua yang ada di sana membosankan, membosankan, Anda perlu banyak berpikir, dan pasti tidak ada peluru perak dan pil ajaib.
Apa yang harus dilakukan? Kerja! Untuk waktu yang lama, membosankan dan menyedihkan, mencoba menciptakan suasana yang akan mendorong pemikiran aktif. Seperti pada contoh kanonik dari Bell Labs atau GE yang sama. Ini sangat mungkin, apalagi, orang paling biasa, seperti Anda dan saya, mampu melakukannya, jika Anda memotivasi mereka dengan cara yang benar.
Dan Anda harus mulai dengan ...
2. Data master: klasik abadi
Master data merupakan suatu pendekatan untuk penataan informasi yang ada dalam suatu perusahaan. Jika pada titik tertentu Anda menemukan bahwa satu atau entitas lain digunakan secara bersamaan dalam dua atau lebih sistem di perusahaan Anda (misalnya, daftar karyawan di situs internal, dalam database 1C-Akuntansi atau sistem CRM), Anda perlu letakkan di sistem data master (MDM) terpisah - dan paksa semua sistem untuk hanya menggunakan direktori ini. Sepanjang jalan, semua peserta akan perlu untuk menyepakati bidang dan atribut yang diperlukan, serta membuat banyak aturan untuk mengontrol kualitas data ini.
Ada kepercayaan di antara para ilmuwan data di bawah 30 tahun bahwa jendela untuk adopsi MDM dimulai sekitar tahun 2008 dan berakhir sekitar tahun 2012-15. Bahwa setelah itu ada begitu banyak alat baru (segala macam hadoop dan percikan) sehingga Anda tidak perlu lagi repot dengan data master, Anda tidak perlu pergi dan bernegosiasi dengan pemilik semua sistem, pikirkan konsekuensi dari memilih Arsitektur MDM dan setiap atribut khusus di setiap direktori.
Sayangnya bagi mereka dan untungnya bagi Anda, jendela ini tidak menutup. Sistem MDM masih relevan dengan sistem akuntansi atau interaksi pelanggan. Dan Anda masih perlu berpikir dan bernegosiasi.
3. Bagaimana cara menyimpan data: apakah Anda memerlukan QCD
Tidak, Anda tidak perlu kuburan data perusahaan.
Gagasan bahwa untuk tujuan analitis Anda perlu menyiapkan kumpulan semua data secara khusus (ahli ideologi QCD tidak hanya menyorot kata ini dalam huruf tebal, tetapi juga menggarisbawahinya dengan garis ganda) di perusahaan Anda adalah tidak masuk akal. Tingkat pemanfaatan sebenarnya dari data ini minimal, 99% di antaranya tidak pernah digunakan.
Namun, ide kumpulan data prefabrikasi baik-baik saja. Hanya mereka yang harus disiapkan sebelum penggunaan potensial, bukan lebih awal. Dan, tentu saja, Anda perlu memiliki metodologi kerja untuk pelatihan semacam itu.
4. Normalisasi, atau mengapa Anda membutuhkan rawa data
Ini adalah bagian tentang "danau data", atau "rawa data". Legenda mengatakan bahwa Anda dapat membuang semua data tanpa pandang bulu ke dalam satu tumpukan besar. Tidak perlu mengonversi semua data ke satu format, tidak perlu menormalkan dan membersihkannya!
Dan bahwa ada perangkat lunak khusus yang memungkinkan Anda untuk menarik kesimpulan yang berguna bagi Anda dari kumpulan data ini dan mendapatkan, seperti pesulap dari lengan bajunya, keteraturan yang Anda butuhkan.
Dalam praktiknya, kesimpulan paling "berharga" yang dapat Anda tarik dari data lake adalah bahwa perusahaan Anda hampir tidak bekerja selama liburan Januari.
Dan pertanyaan utamanya adalah bagaimana beberapa penjahat berhasil meyakinkan setidaknya seseorang tentang efisiensi pendekatan ini. Saya cenderung hipnosis :)
5. Mengapa seorang ilmuwan data mendapatkan lebih banyak analitik dan melakukan lebih sedikit?
Pemasaran, presentasi diri yang kompeten, kepercayaan diri maksimal. Saya juga tidak mengesampingkan hipnosis :)
6. Bus data vs layanan mikro
Contoh favorit saya tentang penyalahgunaan teknologi. Di perusahaan yang cukup besar, pada tahap pengembangan tertentu, bus data muncul. Belum tentu sama dan "dalam ilmu", tetapi fungsi itu sendiri sedang dilaksanakan dengan sukses. Anda dapat membaca lebih lanjut dan sistematis tentang pendekatan di artikel terakhir .
Sebagai alternatif, perusahaan muda yang berkembang dengan sukses ditawarkan untuk menggunakan layanan mikro atau set API terbuka, berbeda untuk setiap sistem yang digunakan.
Ya, layanan mikro sangat berguna saat Anda menulis satu produk mono yang dapat diintegrasikan dengan orang lain. Layanan mikro cenderung cukup mudah untuk ditulis, mudah diuji, dan tidak perlu dinegosiasikan selama pengembangan. Untuk ini mereka dicintai oleh pengembang dan manajer.
Seperti yang ditunjukkan oleh praktik, dua sistem mana pun terintegrasi sempurna melalui layanan mikro. Ketiganya bagus. Lima apa pun dapat ditoleransi jika Anda mendokumentasikan semuanya dengan sangat hati-hati dan menggantungnya dengan autotests.
Sudah pada sepuluh sistem, arsitektur yang tampak hebat di awal, pendekatan berubah menjadi semacam kusut, jaring, ketika aliran tertentu jatuh dan tidak berfungsi selama berbulan-bulan.
Pada beberapa lusin sistem (angkanya hanya tampak mengesankan, di perusahaan mana pun lebih banyak sistem informasi digunakan) pendekatan itu mengubur dirinya sendiri. Dan setelah beberapa tahun, ada semacam sentralisasi dan bus. Sebagai aturan, itu dilakukan oleh orang lain.
7. Bagaimana tidak masuk ke hype sama sekali?
Anda telah melihat beberapa contoh hype ketika beberapa pendekatan atau teknologi mungkin tidak berguna. Dan ini memperhitungkan fakta bahwa, menurut statistik dunia, bagian proyek yang berhasil diselesaikan untuk pengembangan dan implementasi di bidang TI jarang melebihi 40%.
Rasa proyek yang gagal atau tidak berguna mungkin berubah menjadi sedemikian rupa sehingga perusahaan untuk sementara akan meninggalkan inisiatif TI sama sekali - sampai manajer berpengaruh lainnya "mengalami" hype lain.
Agar tidak masuk ke hype, sebelum implementasi selanjutnya, Anda perlu mengetahui hal berikut:
- teknologinya memiliki "bangku" besar. Jumlah contoh aplikasi yang berhasil harus melebihi beberapa lusin, dan mereka tidak boleh memberi kesan bahwa "semacam keajaiban terjadi di sini";
- teknologi harus lulus "ujian nenek" (penjelasan esensi harus sangat jelas sehingga bahkan nenek Anda dapat menguasainya - saya ulangi, tidak ada sihir);
- teknologi harus memiliki daftar pencapaian digital yang spesifik yang akan diterima perusahaan Anda sebagai hasilnya. Pelaksana MDM, CRM, atau departemen akuntansi 1C yang sama dapat menghabiskan waktu berjam-jam untuk membicarakan manfaat dari solusi mereka menggunakan contoh tugas spesifik Anda. Pelaksana data besar "secara umum" mulai mengatakan bahwa pertama-tama kami akan mengumpulkan banyak data, dan kemudian kami akan melihat apa yang harus dilakukan dengannya;
- dan, akhirnya, teknologi harus dipalsukan (dalam arti kriteria Popper ), yaitu. implementor harus jelas memahami ruang lingkup aplikasi dan relevansinya - dan mampu untuk berdebat melawan(!) penerapan. Tidak perlu memalu paku dengan mikroskop, dan secara umum, misalnya, jika Anda memiliki sedikit klien, apakah Anda memerlukan CRM yang super duper?
Pada umumnya, ini sudah cukup untuk terus bekerja dan tidak terganggu oleh HYIP.
Bisakah Anda menyarankan kriteria lain?
Saya mengundang Anda ke diskusi!