Yah, hanya lelucon dan itu sudah cukup. Kami berharap semua orang tertawa dan tidak ada yang terlalu takut. Tapi tunggu, kita masih selesai. Dengan mengonfigurasi sistem untuk menanggapi setiap masukan Command + C, kami menyadari bahwa kami memiliki kesempatan untuk mendapatkan lebih banyak informasi tentang apa yang dilakukan orang-orang di situs. Kami telah berhasil menangkap setiap salinan di Stack Overflow selama dua minggu, dan inilah hasilnya.
Anda tidak sendiri
Satu dari empat orang yang membuka halaman pertanyaan di Stack Overflow menyalin sesuatu darinya dalam lima menit pertama setelah mengunjungi situs. Secara total, kami menghitung 40.623.987 eksemplar dari 7.305.042 posting antara 26 Maret dan 9 April. Orang menyalin teks dari jawaban sekitar sepuluh kali lebih sering daripada dari pertanyaan dan sekitar tiga puluh lima kali lebih sering daripada dari komentar. Blok kode disalin sepuluh kali lebih sering daripada teks yang menyertainya, dan disalin dari halaman pertanyaan tanpa jawaban yang diterima ternyata lebih aktif daripada di mana mereka berada.
Karenanya, jika Anda pernah merasa malu untuk menyalin kode yang sudah jadi alih-alih menulisnya dari awal - biarkan hati nurani Anda tenang! Mengapa menemukan kembali roda jika seseorang telah menyelesaikan semua kesulitan untuk Anda? Kami menyebutnya penggunaan kembali - apa yang dulunya dipelajari, dibuat, dibuktikan oleh orang lain, sekarang akan berguna untuk Anda. Dan tidak ada yang salah dengan itu: dengan cara ini Anda dapat belajar lebih cepat, mendapatkan kode kerja lebih cepat, dan tidak terlalu mengkhawatirkannya. Seluruh situs kami dibangun dengan konsep penggunaan kembali pengetahuan - komunitas Stack Overflow sangat kuat terutama karena pendekatan altruistiknya terhadap pendampingan.
Sangat diperbolehkan untuk memanjat pundak raksasa dan meminjam pelajaran yang telah mereka pelajari sebelum Anda untuk menciptakan sesuatu yang baru dan berharga. Karena itu, ada baiknya mengikuti beberapa praktik yang terbukti saat menyalin untuk secara tidak sengaja menghindari bug atau lubang keamanan, jadi pastikan Anda melakukannya dengan benar sebelum mengambil bagian dan menempelkannya. Tentu saja, kita tidak boleh lupa bahwa beberapa fragmen kode hanya dapat digunakan dengan lisensi. Jika tidak, kami mendukung sepenuhnya siapa saja yang ingin mendapatkan manfaat dari karya yang dibuat oleh komunitas.
Sebagai seseorang yang telah merobek kode dari Stack Overflow selama bertahun-tahun tanpa sedikitpun hati nurani, saya tidak terkejut ketika peristiwa penyalinan mulai mengalir dalam jutaan. Hal lain yang mengejutkan saya: berapa banyak jawaban atas pertanyaan berbeda yang diberikan informasi ini kepada kami. Berapa banyak orang yang benar-benar menyalin konten dari Stack Overflow? Hanya menyalin kode atau sesuatu yang lain? Apakah Anda lebih aktif menyalin pertanyaan dengan jawaban yang diterima? Untuk memberikan arahan pada analisis kami, tim saya dan saya membuat daftar pertanyaan yang menarik bagi kami. Semuanya dimulai dengan lelucon sederhana, dan berubah menjadi studi serius yang menjelaskan banyak hal dan mendorong berbagai diskusi tentang pengembangan dan peningkatan platform di masa depan.
Data
Menggunakan alat pelacakan web buatan sendiri, kami membuat acara khusus untuk merekam setiap kali pengguna menyalin sesuatu dari situs. Berkat acara ini, kami dapat melacak berbagai karakteristik: tag, jenis konten (pertanyaan, jawaban atau komentar, blok kode atau teks biasa), reputasi orang yang menyalin, peringkat posting, wilayah, status posting - diterima atau tidak . Secara umum, kami menyimpan hampir semuanya, kecuali teks itu sendiri, yang telah disalin.
Kami mengumpulkan data selama dua minggu penuh, dari dua puluh enam Maret hingga sembilan April. Semua perhitungan di bawah ini terkait dengan perilaku pengguna dalam periode ini.
Hasil tingkat atas mengkonfirmasi apa yang terdengar seperti lelucon dahulu kala: di Stack Overflow, semua orang melakukan apa yang mereka tiru. Kami juga dengan cepat menjadi yakin bahwa penyalinan sebagai jenis perilaku mematuhi pola yang sama yang telah diidentifikasi untuk lalu lintas situs. Orang paling aktif menyalin pada hari kerja, selama jam kerja. Wilayah di mana situs kami menikmati popularitas tertinggi memberikan salinan terbanyak: Asia - 33%, Eropa - 30% dan Amerika Utara - 26%. Dan terakhir, 86% pengguna penyalin adalah pengguna anonim (artinya, mereka tidak memiliki reputasi). Ketika kami mulai mempelajari lebih detail siapa yang menyalin dan apa sebenarnya, itu menjadi lebih menarik.
Apakah reputasi tinggi dibandingkan dengan penyalinan yang kuat?
Pertama-tama, kami ingin memeriksa: apakah pengguna dengan reputasi tinggi ternyata yang paling aktif dalam penyalinan?
Dapat dilihat dari grafik bahwa sebagian besar penyalinan dilakukan oleh pengguna yang tidak memiliki reputasi - yaitu anonim, karena siapa pun yang membuat akun langsung mendapat satu plus. Mungkin beberapa dari peristiwa ini terjadi di antara pengguna yang belum masuk ke akun mereka yang ada. Sayangnya, ini tidak dapat diverifikasi dengan cara apa pun.
Karena sebagian besar pengguna kami memiliki reputasi rendah, mari coba hapus pengelompokan berdasarkan grup untuk menormalkan data. Sekarang mari kita alihkan perhatian kita bukan ke jumlah total salinan, tetapi ke jumlah salinan per pengguna, untuk melihat bagaimana perbedaan rata-rata tergantung pada reputasinya.
Jika Anda memeriksa visualisasi ini, pola berikut dapat dilacak: seiring pertumbuhan reputasi, jumlah salinan per pengguna mulai menurun. Ada korelasi, tetapi tidak terlalu jelas, jadi saya tidak dapat mengatakan dengan pasti bahwa pengguna dengan reputasi baik atau buruk secara jelas menyalin lebih aktif. Pengembang yang masih mengembangkan keterampilan seringkali memiliki reputasi rendah dan cenderung mencari sumber daya yang dapat mempercepat proses pembelajaran. Saat mereka mengumpulkan pengetahuan, mereka membangun reputasi dan mulai mengerjakan tugas yang membutuhkan solusi yang terkalibrasi dengan baik - ini tidak selalu ditemukan di Stack Overflow.
Apakah jawaban yang diterima lebih sering disalin?
Alur pemikiran di sini dibangun seperti ini: karena jawabannya telah diterima, itu berarti mungkin yang terbaik, dan jika demikian, maka harus disalin dengan energi yang dilipatgandakan. Namun, jika kita melihat statistik, kita akan melihat bahwa dalam 52,4% kasus, jawaban yang tidak diterima disalin. Namun, jika kita berbicara tentang nilai rata-rata, maka untuk satu pos unik dengan jawaban yang diterima, ada tujuh salinan, dan dengan satu yang tidak dapat diterima - hanya lima. Ternyata posting yang tidak diterima memberikan lebih banyak salinan, tetapi yang diterima lebih aktif mengembangkan proses yang sama dalam menggunakan kembali pengetahuan.
Perlu dicatat bahwa ada juga beberapa pertanyaan yang, pada prinsipnya, tidak memiliki jawaban yang diterima. Ambil contoh jawaban ini: 4.984 pengguna unik memilihnya, dan 7.943 disalin selama penelitian kami. Tetapi penanya tidak menerimanya. Dan dia juga tidak menerima yang lain - mungkin entah bagaimana ini terkait dengan fakta bahwa dia sama sekali tidak muncul di situs sejak 2010. Tetapi banyak jawaban bermanfaat lainnya berada pada posisi yang sama.
Apakah postingan peringkat tinggi lebih aktif disalin?
Jadi, jawaban yang diterima tidak memiliki keuntungan dalam menyalin, tetapi peringkat tinggi pasti berpengaruh, bukan? Mari kita periksa.
Seperti yang bisa kita lihat, dalam kategori jawaban dalam kelompok dari satu hingga seribu suara, semuanya berjalan cukup lancar. Namun dalam kasus pertanyaan, sebagian besar penyalinan terjadi pada postingan dengan peringkat dari satu hingga lima. Saya menduga ini karena orang-orang menyalinnya untuk diposkan ulang hingga akhirnya mendapat tanggapan.
Seperti dalam situasi dengan pengguna, sebagian besar posting di situs memiliki peringkat yang agak rendah. Untuk normalisasi, mari kita lihat berapa banyak salinan yang dibuat per posting.
Di sini Anda dapat dengan jelas melihat bahwa jumlah salinan meningkat dengan peringkat. Dan ini logis: komunitas lebih bersedia untuk mengambil apa yang telah mencapai kinerja yang baik.
Apakah ada yang menyalin posting dengan peringkat buruk?
Tapi bagaimana dengan titik-titik biru itu, yang mewakili postingan dengan rating negatif? Mengapa menyalin sesuatu yang tidak disetujui sama sekali? Nah, jangan langsung mengambil kesimpulan.
Lihat jawaban ini . Dari semua tanggapan dengan peringkat negatif, ia mengumpulkan jumlah salinan maksimum - 288 dengan peringkat -2. Jika Anda membaca teksnya, Anda akan melihat bahwa teks itu diungkapkan dengan cara yang lebih ringkas sama seperti jawaban paling populer, dengan peringkat total 29 dan 493 eksemplar. Sekalipun jawaban dengan peringkat negatif tidak keluar dalam hal jumlah salinan, prinsip "niasilil" di sini jelas mendukungnya.
Tag apa yang paling sering disalin?
Pertanyaan inilah yang paling ingin saya jawab. Sayangnya, karena skala penelitian dan jumlah sumber daya yang tersedia, penguraian tag berlapis tidak dapat dilakukan. Misalnya tag html tidak menyertakan postingan yang memiliki kombinasi tag | html | css |.
Paling sering, konten disalin dari tag paling populer dan aktif di situs, yang tidak mengherankan. Hanya satu hal yang menarik perhatian saya: python muncul dalam empat grup tag dari sepuluh teratas sekaligus. Tiga di antaranya terkait langsung dengan analisis data: | python | pandas |, | python | pandas | dataframe | dan | python | matplotlib |. Saya sendiri tidak peduli dengan topik ini, jadi saya sangat senang karena banyak orang yang menguasai alat ini.
10 Tag Teratas, Sekarang Dengan Salinan Per Posting
Selain tag dengan jumlah salinan total tertinggi, saya ingin menghitung tag dengan rasio salin ke pos tertinggi. Saya menetapkan ambang minimum sepuluh posting, dan seperti yang Anda lihat, ternyata semakin spesifik dalam tag, semakin banyak salinan yang mereka kumpulkan per posting.
Posting apa yang paling banyak disalin?
Nah, sekarang mari kita lanjutkan ke apa, menurut saya, membangkitkan rasa ingin tahu di antara banyak orang. Posting mana yang mendapat salinan paling banyak?
Code Block Answer
Dengan senang hati saya mengumumkan bahwa pemenangnya adalah jawaban untuk Bagaimana mengulang baris dalam DataFrame di Pandas , yang memiliki 3.497 suara dan 11.829 eksemplar. Itu diposting pada 2013 dan masih terus menyelamatkan ribuan orang setiap minggu.
Jawaban Teks Biasa
Ketika datang ke konten tanpa kode, ini dia posting di TypeError: this.getOptions bukan fungsi [ditutup] dengan 218 suara dan 1.570 salinan. Tidak ada cara untuk memeriksanya, tetapi saya kira mereka sedang menyalin cuplikan `sass-loader @ 10.1.1`.
Pertanyaan blok kode Pertanyaan utama kami adalah Bagaimana cara membuat tombol HTML yang berfungsi seperti tautan? - 2.147 suara dan 3.665 eksemplar.
Pertanyaan teks biasa
Akhirnya, pertanyaan non-kode yang paling populer adalah Pembaruan ditolak karena ujung cabang Anda saat ini berada di belakang mitra jarak jauhnya - 322 suara dan 261 salinan. Ada kesulitan dengannya, karena teks berisi banyak perintah git yang tidak diformat sebagai blok kode - mungkin mereka disalin secara aktif. Tetapi karena teks itu sendiri, yang telah disalin, kami tidak menyimpan, tidak akan ada yang tahu.
Komentar (1)
Penting untuk diingat bahwa Stack Overflow tidak semuanya tentang pertanyaan dan jawaban. Terkadang satu komentar yang masuk akal sudah cukup. Berikut adalah beberapa dari mereka yang disalin secara aktif!
Yang pertama adalah pemimpin absolut di antara komentar di seluruh situs, dan yang kedua adalah kuda hitam: ia hanya mengumpulkan lima suara, tetapi menempati urutan keenam dalam hal jumlah salinan.