Saat data Anda kotor

Kisah di bawah ini adalah ilustrasi yang bagus tentang bagaimana AI mendapatkan ide yang salah tentang masalah yang ingin kami selesaikan: Para



peneliti di Universitas Tübingen melatih jaringan saraf untuk mengenali gambar , dan kemudian diminta untuk menunjukkan bagian mana dari gambar yang paling penting untuk membuat keputusan. Ketika mereka meminta jaringan saraf untuk mengisolasi piksel paling penting untuk kategori tench (spesies ikan), inilah yang disorot:







Jari manusia merah muda dengan latar belakang hijau.



Jari manusia dengan latar belakang hijau!



Mengapa dia mencari jari di foto ketika dia harus mencari ikan? Ternyata sebagian besar gambar tench di dataset tersebut adalah gambar orang yang memegang ikan sebagai piala. Dia tidak memiliki konteks tentang apa sebenarnya tench itu, jadi dia menganggap jari-jari itu adalah bagian dari ikan.



Jaringan saraf yang menghasilkan gambar di ArtBreeder ( BigGAN ) dilatih pada kumpulan data ImageNet yang sama, dan saat Anda memintanya untuk membuat garis, hasilnya sama:





Empat gambar adalah orang kulit putih yang memegang sesuatu berwarna hijau dan berbintik-bintik. Pada beberapa gambar, benda hijau memiliki tekstur yang lebih mencurigakan, tetapi tidak ada bagian kepala dan ekor yang jelas. Itu hanya tubuh ikan yang besar. Sirip bawah berpadu rumit dengan banyak jari manusia berwarna merah muda



Manusia jauh lebih pandai bicara daripada ikan, dan saya terpesona oleh jari-jari manusia yang sangat dilebih-lebihkan.



Ada kategori lain di ImageNet dengan masalah serupa. Ini mikrofon.





Empat gambar dengan latar belakang yang sangat gelap. Kiri atas berbentuk mirip mikrofon dengan penyekat suara halus atau kepala yang terbuat dari rambut abu-abu manusia. Yang lain tampak seperti manusia Jaringan



saraf telah mengenali kontras pencahayaan pemandangan dan bentuk manusia, tetapi banyak gambar tidak berisi apa pun yang menyerupai mikrofon dari jarak jauh. Dalam banyak foto kit pelatihan, mikrofon adalah bagian kecil dari gambar yang dapat dengan mudah diabaikan. Masalah serupa muncul dengan instrumen kecil seperti "seruling" dan "oboe".



Dalam kasus lain, ada bukti bahwa foto diberi label yang salah. Dalam gambar "helm sepak bola" yang dihasilkan ini, beberapa dengan jelas menggambarkan orang-orang yang tidak memakai helm, dan beberapa terlihat seperti helm bisbol.





Empat gambar yang dihasilkan. Dua teratas adalah orang-orang, tidak satupun dari mereka memakai helm sepak bola (meskipun rambut mereka mungkin sedikit aneh; sulit untuk dikatakan karena yang lainnya juga sangat aneh). Di kiri bawah, seorang pria memakai helm yang bentuknya mirip bisbol logam. Kanan bawah ... kanan bawah - helm sepak bola disilangkan dengan ikan kartun bergigi



ImageNet adalah kumpulan data yang sangat berantakan. Dia memiliki kategori untuk sebuah agama, tetapi tidak untuk seekor jerapah. Alih-alih kuda sebagai kategori, ada coklat kemerah-merahan (warna khusus kuda). Sepeda untuk dua kategori, tapi skateboard tidak.





Empat gambar yang jelas merupakan semacam objek sepeda multi-roda. Roda cenderung fleksibel dengan jari-jari yang terbelah secara aneh, dan terkadang roda menjadi longgar. Ada orang yang terlihat seperti pengendara, tetapi sulit untuk memisahkan mereka dari sepeda



Alasan utama polusi ImageNet adalah database dikumpulkan secara otomatis di Internet. Gambar-gambar itu seharusnya difilter oleh para pekerja yang memberi tag pada mereka, tetapi banyak keanehan telah bocor. Dan sangat besarjumlah gambar dan tag yang seharusnya tidak muncul dalam kumpulan data penelitian umum, dan gambar yang terlihat seperti ada di sana tanpa izin dari orang yang digambarkan. Setelah beberapa tahun digunakan secara luas oleh komunitas AI, tim ImageNet dilaporkan telah menghapus beberapa konten ini. Set data bermasalah lainnya, seperti yang dikumpulkan dari gambar online tanpa izin atau dari rekaman pengawasan, juga baru-baru ini telah dihapus (yang lain, seperti Clearview AI, masih digunakan ).



Vinay Prabhu dan Ababa Birhane menunjuk ke masalah serius dengan kumpulan data lain minggu ini , 80 juta Gambar Kecil... Sistem memotong gambar dan secara otomatis menandainya menggunakan jaringan saraf lain yang terlatih pada teks internet. Anda mungkin terkejut, tetapi ada beberapa hal yang cukup menyinggung dalam teks Internet. MIT CSAIL menghapus kumpulan data ini secara permanen, memilih untuk tidak memfilter semua 80 juta gambar secara manual.



Ini bukan hanya masalah dengan data yang buruk , tetapi dengan sistem di mana kelompok penelitian besar dapat merilis kumpulan data dengan masalah besar seperti bahasa yang menyinggung dan kurangnya izin untuk mengambil foto. Seperti yang dikatakan oleh pakar etika teknologi, Shannon Vallor , "Untuk institusi mana pun yang melakukan pembelajaran mesin saat ini, 'kami tidak tahu' bukanlah alasan, tetapi pengakuan." Sukaalgoritme yang meningkatkan Obama menjadi orang kulit putih , ImageNet adalah produk komunitas pembelajaran mesin di mana ada sangat sedikit keragaman ( pernahkah Anda memperhatikan bahwa sebagian besar orang yang dihasilkan di blog ini berkulit putih? Jika Anda belum menyadarinya, ini mungkin karena fakta bahwa banyak bagian dari budaya Barat menganggap putih sebagai warna default).



Perlu banyak pekerjaan untuk membuat kumpulan data terbaik - dan lebih mengetahui kumpulan data mana yang tidak boleh dibuat. Tetapi pekerjaan ini layak dilakukan.



Lihat juga:






All Articles