Ilmu Data adalah penguat pemikiran, intuisi dan inspirasi

gambar




Salah satu teknologi pertama di dunia untuk menyimpan dan bertukar data.



Pada abad ke-19, dokter dapat meresepkan merkuri untuk perubahan suasana hati dan arsenik untuk asma. Mungkin tidak terpikir oleh mereka untuk mencuci tangan sebelum operasi. Tentu saja, mereka tidak mencoba membunuh siapa pun - mereka hanya tidak tahu ada metode yang lebih cocok.



Para dokter awal ini memiliki data berharga yang tertulis di buku catatan mereka, tetapi masing-masing hanya melihat satu potongan puzzle besar. Tanpa alat modern untuk pertukaran dan analisis informasi (serta ilmu pengetahuan untuk memahami data ini), tidak ada yang dapat mencegah takhayul untuk memengaruhi apa yang dapat dilihat melalui "lubang kunci" fakta yang diamati.



Sejak saat itu, manusia sudah jauh dengan teknologi, tetapi booming pembelajaran mesin dan kecerdasan buatan saat ini tidak lepas dari masa lalu. Semua ini merupakan kelanjutan dari naluri dasar manusia - memahami dunia di sekitar kita. Naluri ini diperlukan agar kita dapat membuat keputusan yang lebih cerdas. Dan kami sekarang memiliki teknologi yang jauh lebih baik daripada sebelumnya.



Salah satu cara untuk menggambarkan pola ini yang telah berlangsung selama berabad-abad adalah dengan menganggapnya sebagai revolusi dalam dataset, bukan unit data. Perbedaannya tidak sepele. Banyaknya data telah membantu membentuk dunia modern. Pertimbangkan ahli-ahli Taurus Sumeria (Irak modern) yang menekan stylus mereka ke lempengan tanah lebih dari 5.000 tahun yang lalu. Ketika mereka melakukannya, mereka tidak hanya menemukan sistem penulisan pertama, tetapi juga teknologi pertama untuk menyimpan dan bertukar data.



Jika Anda terinspirasi oleh janji bahwa AI dapat melampaui kemampuan manusia, pertimbangkan alat tulis untuk memberi kita ingatan manusia super. Meskipun mudah untuk mengambil rekaman informasi untuk diberikan hari ini, kemampuan untuk menyimpan kumpulan data secara aman merupakan langkah pertama yang inovatif untuk mencapai kecerdasan yang lebih tinggi.



Sayangnya, mengekstraksi informasi dari lempengan tanah dan rekan-rekan pra-elektronik mereka sangat menyusahkan. Anda tidak dapat mengklik jari Anda pada sebuah buku untuk menghitung jumlah kata di dalamnya. Sebagai gantinya, Anda harus memasukkan setiap kata ke otak Anda untuk memprosesnya. Masalah seperti ini membuat analisis data awal melelahkan, sehingga upaya awal macet sangat awal. Sementara kerajaan dapat menganalisis pendapatan pajak, hanya jiwa yang tak kenal takut yang dapat mencoba beralasan dalam bidang seperti obat-obatan, di mana tradisi seribu tahun mendorong improvisasi.



gambar



Untungnya, umat manusia telah menghasilkan perintis luar biasa. Misalnya, peta kematian John Snow, yang disusun selama wabah kolera di London pada tahun 1858, menginspirasi para dokter untuk mempertimbangkan kembali takhayul bahwa penyakit itu disebabkan oleh miasma (udara beracun), dan memperhatikan air minum.



gambar



Jika Anda mengenal Sang Wanita dengan Lampu, Florence Nightingale, karena belas kasihnya yang heroik sebagai perawat, Anda mungkin akan terkejut mengetahui bahwa dia juga seorang pelopor dalam bidang analitik. Infografis inventifnya selama Perang Krimea menyelamatkan banyak nyawa karena mengidentifikasi masalah kebersihan sebagai penyebab utama kematian di rumah sakit, dan infografis inilah yang mengilhami pemerintah untuk memperhatikan sanitasi.



gambar



Era kumpulan data yang seragam muncul ketika nilai informasi mulai menegaskan dirinya di semakin banyak bidang, yang mengarah pada munculnya komputer. Dan ini bukan tentang teman elektronik yang Anda gunakan hari ini. "Komputer" (kalkulator) muncul sebagai profesi manusia, ketika karyawan khusus melakukan perhitungan dan memproses data secara manual untuk menilai signifikansi mereka.



gambar



Orang-orang ini semua komputer! Foto diambil pada 1950-an oleh staf Supersonic Pressure Tunnel .



Keindahan data adalah bahwa hal itu memungkinkan Anda untuk membentuk penilaian dari sesuatu yang lebih bermakna daripada udara tipis. Dengan melihat data, Anda terinspirasi untuk mengajukan pertanyaan baru, mengikuti jejak Florence Nightingale dan Jon Snow. Ini adalah disiplin analitik: untuk menginspirasi model dan hipotesis melalui penelitian.



Dari dataset ke partisi data



Pada awal abad kedua puluh, keinginan untuk membuat keputusan yang lebih baik dalam menghadapi ketidakpastian menyebabkan lahirnya profesi paralel: statistik. Ahli statistik membantu untuk memeriksa apakah masuk akal untuk berperilaku sesuai dengan fenomena yang ditemukan oleh analis dalam dataset saat ini (dan seterusnya).



Contoh terkenal adalah Ronald A. Fisher, yang mengembangkan buku teks pertama di dunia tentang statistik. Fisher menjelaskan menjalankan tes hipotesis dalam menanggapi klaim temannya bahwa ia dapat menentukan apakah susu ditambahkan ke teh sebelum atau setelah air. Berharap untuk membuktikan bahwa ini tidak benar, berdasarkan data, ia harus menyimpulkan bahwa temannya benar-benar dapat melakukannya.



Analisis dan statistik memiliki kelemahan besar: Jika Anda menggunakan data yang sama untuk menghasilkan hipotesis dan mengujinya, maka Anda curang. Ketatnya statistik mengharuskan Anda untuk menyatakan niat Anda sebelum mengambil tindakan yang sesuai. Analytics lebih merupakan permainan retrospektif yang diperpanjang. Analisis dan statistik sangat tidak kompatibel hingga revolusi besar berikutnya (berbagi data) mengubah segalanya.



Berbagi data adalah ide sederhana, tetapi itu adalah salah satu ide paling penting bagi para ilmuwan seperti saya. Jika Anda hanya memiliki satu dataset, Anda harus memilih antara analytics (inspirasi tidak berdasar) dan statistik (inferensi kuat). Mau tipuan? Bagilah dataset Anda menjadi dua dan Anda memiliki serigala yang diberi makan dan domba yang aman!



Era dua set data menghilangkan ketegangan antara analitik dan statistik dan memperkenalkan kerja terkoordinasi antara dua jenis ilmuwan data yang berbeda. Analis menggunakan satu set data untuk membantu Anda merumuskan pertanyaan, dan ahli statistik menggunakan set data yang berbeda untuk memberikan jawaban yang kuat.



Kemewahan ini sangat menuntut jumlah data. Lebih mudah membicarakan pemisahan daripada benar-benar mengimplementasikannya. Anda tahu apa ini jika Anda mencoba mengumpulkan informasi yang cukup untuk setidaknya satu dataset yang layak. Era double dataset adalah perkembangan baru yang sejalan dengan peralatan pemrosesan data yang lebih baik, biaya penyimpanan yang lebih rendah, dan kemampuan untuk berbagi informasi yang dikumpulkan melalui Internet.



Bahkan, inovasi teknologi yang mengarah ke era dataset ganda cepat mengantar ke tahap berikutnya - era tiga-dataset otomatis.



Ada istilah yang lebih akrab untuk ini: pembelajaran mesin.



Menggunakan dataset menghancurkan kemurniannya sebagai sumber kekakuan statistik. Anda hanya memiliki satu peluang, jadi bagaimana Anda tahu wawasan analitik mana yang paling layak untuk diuji? Jika Anda memiliki dataset ketiga, Anda dapat menggunakannya untuk mengambil test drive ide Anda. Proses ini disebut validasi, dan merupakan inti dari apa yang membuat pembelajaran mesin bekerja.



Setelah Anda bebas untuk menguji segalanya dan melihat ide-ide yang solid, Anda dapat memercayai siapa pun untuk menemukan solusi: analis berpengalaman, pekerja magang, daun teh untuk ramalan, dan bahkan algoritma yang bekerja di luar konteks tentang masalah bisnis Anda. Solusi yang berkinerja terbaik dalam proses validasi akan menjadi kandidat untuk uji statistik yang sesuai. Anda baru saja memberdayakan diri Anda dengan kemampuan untuk mengotomatisasi inspirasi!



Inspirasi otomatis



Inilah sebabnya mengapa pembelajaran mesin merevolusi dataset, bukan hanya data. Ini semua tentang kemewahan memiliki data yang cukup untuk partisi tiga arah.



Bagaimana AI masuk ke dalam gambar ini? Pembelajaran mesin dengan jaringan saraf multilayer secara teknis disebut pembelajaran dalam, tetapi telah menerima nama panggilan lain yang terjebak dalam pidato: AI. Sementara AI pernah memiliki arti yang berbeda, hari ini kemungkinan besar digunakan secara sinonim dengan pembelajaran yang mendalam.



Jaringan saraf yang dalam telah menciptakan desas-desus dengan mengalahkan algoritma pembelajaran mesin tradisional pada banyak masalah kompleks. Namun, mereka membutuhkan lebih banyak data untuk melatihnya, dan persyaratan untuk kemampuan pemrosesan data berada di luar kemampuan laptop konvensional. Itulah sebabnya kemunculan AI modern dikaitkan dengan teknologi cloud. Teknologi cloud memungkinkan Anda untuk menyewa pusat data orang lain alih-alih merakit perangkat keras sendiri, sehingga Anda dapat mencoba teknologi AI modern sebelum mulai berinvestasi di dalamnya.



Dengan potongan teka-teki ini, kami memiliki serangkaian profesi lengkap: pembelajaran mesin dan pakar AI, analis, dan ahli statistik. Istilah umum yang menggambarkan masing-masing adalah pakar dalam Ilmu Data, ilmu yang membuat data bermanfaat.



Ilmu Data adalah produk dari era set data triple kami. Banyak industri di industri saat ini secara teratur menghasilkan lebih dari cukup data. Jadi, apakah pendekatan empat dataset mungkin?



Apa langkah selanjutnya jika model yang baru Anda latih menunjukkan nilai validasi rendah? Jika Anda berperilaku seperti kebanyakan orang, maka Anda akan segera menuntut untuk mencari tahu alasannya! Sayangnya, tidak ada dataset yang dapat menjawab pertanyaan Anda. Anda mungkin tergoda untuk menggali dataset validasi Anda, tetapi sayangnya, debugging akan merusak kemampuannya untuk memvalidasi model Anda secara efektif.



Dengan menganalisis dataset validasi Anda, Anda pada dasarnya mengubah tiga dataset kembali menjadi dua. Alih-alih melakukan sesuatu yang bermanfaat, Anda tanpa sadar kembali ke masa lalu!



Solusinya terletak di luar tiga set data yang sudah Anda gunakan. Untuk sampai pada iterasi pembelajaran yang lebih cerdas dan penyetelan hyperparametric, Anda akan ingin bergerak lebih dekat ke praktik terbaik: era empat set data.



Dengan asumsi bahwa tiga set data memberi Anda inspirasi, mempelajari iterasi, dan pengujian yang ketat, yang keempat akan mempercepat siklus pengembangan AI Anda dengan analitik canggih yang memberikan wawasan tentang pendekatan mana yang dapat dicoba di setiap iterasi. Dengan menggunakan berbagi data empat arah, Anda dapat memanfaatkan kelimpahan data! Selamat datang di masa depan.



gambar



Cari tahu detail cara mendapatkan profesi profil tinggi dari awal atau Tingkatkan keterampilan dan gaji dengan mengikuti kursus online berbayar SkillFactory:











All Articles