💇🏼 🙆🏿 💆🏽 Bagaimana kumpulan data mengakumulasi rasisme dan seksisme 👩🏿‍✈️ ☝🏻 👩🏽‍🤝‍👨🏾

Algoritme pembelajaran mesin untuk gambar dan teks secara teratur menunjukkan bias rasial dan seksis. Contoh terbaru adalah pemblokiran bot Facebook Korea Selatan Lee Luda , yang "membenci" anggota minoritas seksual dan Afrika-Amerika. Masalahnya lebih dalam dari yang terlihat. Saat membuat kumpulan data untuk pembelajaran mesin, orang-orang (secara sadar atau tidak) menerjemahkan banyak prasangka mereka sendiri, yang kemudian memandu algoritme.

Rasisme terprogram

Data foto wajah adalah dasar dari sistem visi komputer. Kumpulan ini sering diberi label menurut ras individu dalam kumpulan data tertentu. Namun pada kenyataannya, ras adalah konsep yang abstrak dan kabur. Saat membuat kategori, sedikit perhatian diberikan pada validitas, penataan, dan stabilitas informasi ini. Ini berarti bahwa orang yang membentuk kumpulan data memiliki peluang untuk manifestasi rasisme yang disadari atau tidak disadari saat membentuk kumpulan data.

Peneliti di Northeastern Massachusetts University Zayed Han dan Yun Fu memeriksa tag wajah dalam kumpulan data dalam konteks kategori ras. Para ilmuwan mengklaimtag tersebut tidak dapat diandalkan karena secara sistematis menyandikan stereotip rasial. Beberapa set data menggunakan karakteristik yang terlalu kabur seperti “India / Asia Selatan” atau “orang dengan nenek moyang dari negara-negara di Afrika, India, Bangladesh, Bhutan, dan negara lain”. Dan terkadang label yang digunakan dapat diartikan menyinggung - misalnya, "Mongoloid".

Para peneliti menulis bahwa kumpulan standar kategori ras yang umum digunakan (Asia, Hitam, Putih) tidak dapat mewakili sejumlah besar orang. Misalnya, skema ini mengecualikan penduduk asli Amerika. Tidak jelas label apa yang harus diberikan pada ratusan juta orang yang tinggal di Timur Tengah atau Afrika Utara. Masalah lain yang ditemukan adalah bahwa orang memandang identitas rasial individu tertentu secara berbeda. Misalnya, dalam satu kumpulan data, orang Korea dianggap lebih sebagai orang Asia daripada orang Filipina.

Secara teoritis dimungkinkan untuk menambah jumlah kategori ras, tetapi mereka tidak akan dapat menjelaskan, misalnya, mestizo. Asal kebangsaan atau etnis dapat digunakan, tetapi perbatasan negara seringkali merupakan hasil dari keadaan historis yang tidak mencerminkan perbedaan dalam penampilan. Selain itu, banyak negara memiliki ras yang heterogen.

Para peneliti memperingatkan bahwa prasangka ras dapat berlipat ganda dan diperkuat jika tidak ditangani. Algoritme pengenalan wajah rentan terhadap berbagai bias. Kumpulan data harus memiliki ras yang dideskripsikan dengan benar sebanyak mungkin untuk menghindari diskriminasi. Semua etnis harus terwakili di dunia digital, sekecil apa pun mereka.

Seksisme terprogram

Adapun algoritma untuk menghasilkan teks dan gambar, mereka juga dapat menyiarkan keyakinan yang salah. Dalam arti tertentu, mereka adalah personifikasi dari Internet bawah sadar kolektif. Ide-ide negatif dinormalisasi sebagai bagian dari algoritma pembelajaran.

Peneliti Ryan Steed dan Eileen Caliscan melakukan eksperimen - mereka mengunggah foto wajah pria dan wanita ke layanan yang menambahkan gambar yang dipotong. Dalam 43% kasus, algoritme menawarkan setelan bisnis kepada pria. Untuk wanita dalam 53% kasus, algoritme menghasilkan atasan atau setelan dengan garis leher yang dalam.

Pada 2019, peneliti Keith Crawford dan seniman Trevor Paglen menemukannyatag itu di ImageNet, kumpulan data terbesar untuk melatih model visi komputer, berisi kata-kata yang menyinggung. Misalnya, "pelacur" dan nama ras yang salah. Masalahnya, dataset ini didasarkan pada data dari internet, di mana banyak stereotip tentang manusia dan fenomena yang beredar.

Para peneliti menekankan bahwa gambar adalah data yang sangat kabur, dibebani dengan banyak arti yang ambigu, pertanyaan yang tidak terpecahkan dan kontradiksi. Dan para pengembang algoritma pembelajaran mesin dihadapkan pada tugas mempelajari semua nuansa hubungan yang tidak stabil antara gambar dan nilai.

Butuh lebih banyak foto

Peneliti Deborah Raji dan Genevieve Fried memeriksa 130 set data wajah (FairFace, BFW, RFW, dan LAOFIW) yang dikumpulkan selama 43 tahun. Ternyata, seiring bertambahnya data, orang-orang secara bertahap berhenti meminta izin untuk menggunakan gambar mereka untuk digunakan dalam kumpulan data.

Ini menghasilkan kumpulan data termasuk foto anak di bawah umur, foto dengan deskripsi rasis dan seksis, dan gambar berkualitas rendah. Tren ini mungkin menjelaskan alasan mengapa polisi sering keliru menangkap orang berdasarkan data pengenalan wajah.

Awalnya, orang sangat berhati-hati dalam mengumpulkan, mendokumentasikan, dan memverifikasi data wajah, tetapi sekarang sudah tidak ada yang peduli. “Anda tidak bisa melacak jutaan wajah. Setelah titik tertentu, Anda bahkan tidak dapat berpura-pura bahwa Anda memiliki kendali. Kami mengumpulkan informasi pribadi dari setidaknya puluhan ribu orang, yang dengan sendirinya merupakan dasar dari kerugian. Dan kemudian kami mengumpulkan semua informasi ini yang tidak dapat Anda kendalikan untuk membangun sesuatu yang kemungkinan berfungsi dengan cara yang bahkan tidak dapat Anda prediksi, ”kata Deborah Raji.

Oleh karena itu, Anda tidak boleh menganggap algoritme dan data machine learning sebagai entitas yang mengklasifikasikan dunia secara objektif dan ilmiah. Mereka juga tunduk pada prasangka politik, ideologis, rasial, dan penilaian subjektif. Dan dilihat dari keadaan kumpulan data yang besar dan populer, ini adalah aturannya, bukan pengecualian.

Blog ITGLOBAL.COM - Managed IT, private cloud, IaaS, layanan keamanan informasi untuk bisnis:

Bagaimana kumpulan data mengakumulasi rasisme dan seksisme

Rasisme terprogram

Seksisme terprogram

Butuh lebih banyak foto

More articles: