Apa konten saya untuk Anda? Evolusi berabad-abad dan prinsip dasar personalisasi konten

Halo% username%! Hari ini kita akan berbicara tentang sejarah personalisasi konten, prinsip-prinsip pembentukan "gelembung konten" untuk kita masing-masing, baik berdasarkan preferensi pribadi maupun berdasarkan sidik jari digital pengguna. Nah, ceramah akan diberikan oleh Lydia Khramova, ketua tim data scientist di QIWI dan pengajar kursus "Profesi" β€ŒDataβ€Œ β€ŒScientistβ€Œ di Skillbox. Ia mencoba menceritakan tentang proses pembentukan konten yang bernuansa paling penting dan menarik sehingga artikel ini dapat dipahami semua orang, bukan hanya pakar.



Semua kesenangan berada di ambang batas!



Menggulir umpan jejaring sosial favorit kami di tidur siang, kami hampir tidak memikirkan cara kerja algoritme, ini memberikan informasi yang menarik bagi kami. Berkat algoritme ini dan algoritme lainnya, konten mengikuti kami ke mana pun. Jika Anda beruntung - ini terlihat seperti selimut besar yang nyaman dengan foto dan musik atmosfer, jika Anda tidak beruntung - selimut itu menjangkau di belakang kami dengan awan yang mengganggu dan lengket yang ingin Anda singkirkan, meskipun ini tidak selalu terjadi.



Tampaknya kita tidak memperhatikan ketika dunia fisik memiliki dimensi baru - dimensi konten dengan aturan dan karakteristiknya sendiri. Tapi kami terbiasa dengan cepat.



Banyaknya informasi membuat kita lupa bagaimana cara mendapatkan dan menyaring bulir-bulir pengetahuan dan pengalaman - lagipula, itu, yang sudah disiapkan dan disortir, sudah ada di piring kita, seperti bermacam-macam makanan lezat. Tapi dari mana semua ini berasal, dan yang paling penting - bagaimana kita dapat memengaruhi lingkungan konten kita? Dan bisakah kita?



Sejarah Pemeringkatan dan Pencarian



Bertentangan dengan kepercayaan populer, alat untuk memilih dan memberi peringkat informasi untuk berbagai tujuan yang berguna adalah penemuan yang cukup lama. Itu tidak muncul sekarang, tetapi di era katalog perpustakaan yang sekarang setengah terlupakan.



Sebelum mesin cetak buku ditemukan pada abad ke-15, katalog perpustakaan hanyalah inventaris buku-buku berharga beserta judulnya. Kemunculan salinan cetaklah yang memunculkan kebutuhan untuk membuat katalog dan pencarian yang nyaman untuk karya yang diperlukan di pustakawan dan pembaca.

Agak sulit untuk menentukan siapa sebenarnya yang menjadi pencipta katalog pertama, beberapa sumber menghubungkan penemuannya dengan Johann Trithemius, Kepala Biara Spongheim, pustakawan, sejarawan dan pecinta kriptografi, tetapi kebanyakan menyebutkan Gottfried Van Swieten, seorang pejabat Austria dan prefek perpustakaan kekaisaran di Wina.



Gottfried Van Swieten-lah yang pada tahun 1780 membuat katalog kartu pertama, sangat mirip dengan katalog perpustakaan modern - kartu dengan judul buku, nama penulis, tahun penerbitan dan deskripsi singkat. Kami dapat mengatakan bahwa katalog kartu telah menjadi pertanda mesin pencari modern - pada kenyataannya, itu adalah informasi meta pertama - yaitu, informasi tentang informasi lain yang diperlukan untuk penelusuran dan navigasi. Tentu saja, kartu sederhana Van Swieten tidak dapat memenuhi semua kebutuhan pembaca dan peneliti - tetapi mereka baru diganti pada tahun 1870 berkat penemuan pustakawan Amerika Melville Dewey.



Dewey bekerja lama untuk meningkatkan efisiensi katalog dan datang ke sistem yang benar-benar baru berdasarkan klasifikasi buku berdasarkan konten, yang disebut sistem desimal. Idenya didasarkan pada pembagian semua karya menjadi sepuluh bagian - dari umum hingga agama, bahasa dan geografi dan sejarah. Setiap bagian, secara bergantian, dibagi menjadi sepuluh subbagian, dan seterusnya, sedangkan kode dibentuk dari indeks numerik bagian dan subbagian yang diindikasikan kejayaannya di sebelah kanan, misalnya:

500 Ilmu Pengetahuan Alam dan Matematika

510 Matematika

516 Geometri

Faktanya, ini adalah direktori tematik skala negara pertama, yang memungkinkan Anda dengan mudah menemukan informasi apa pun yang Anda butuhkan. Selain itu, karena tidak adanya karakter non-numerik dalam indeks topik, sistem Dewey sangat cocok untuk pemrosesan mesin dan masih berlaku di perpustakaan di AS dan Kanada.



Penemuan ini mendorong bibliograf Belgia Paul Otle dan Henri La Fontaine ke ide yang lebih berani - untuk mengganti buku kertas dengan sistem kartu elektronik dengan potongan-potongan informasi, yang memungkinkan mereka untuk mengklasifikasikannya tanpa pendapat subjektif dari penulis. Pada tahun 1934, ide ini diwujudkan dalam buku "Monde" oleh Paul Otlet, yang menurut banyak peneliti, mengantisipasi penciptaan Internet. Sayangnya, buku ini sulit ditemukan dalam bahasa Rusia, jadi saya hanya akan memberikan satu kutipan dalam bahasa Inggris:

β€œSegala sesuatu di alam semesta, dan segala sesuatu manusia, akan terdaftar pada jarak tertentu saat ia diproduksi. Dengan cara ini citra dunia yang bergerak akan terbentuk, cermin sejati dari ingatannya. Dari kejauhan, setiap orang akan dapat membaca teks, diperbesar dan dibatasi pada subjek yang diinginkan, yang diproyeksikan pada layar individu. Dengan cara ini, setiap orang dari kursi berlengan akan dapat merenungkan ciptaan, secara keseluruhan atau sebagian. ”



Mengingatkan kita pada realitas kita, bukan?



Sayangnya, ide Paul Otlet tidak menjadi kenyataan selama masa hidupnya, dan World Wide Web lahir lama kemudian. Dan sudah pada tahun 1998, dengan penemuan algoritma PageRank untuk mengevaluasi halaman Internet oleh Sergey Brin dan Larry Page, era penjelajahan web tanpa akhir dimulai.



Informasi telah tersedia, pencarian menjadi nyaman dan mudah. Dan dengan munculnya penyimpanan baru dan daya komputasi, bisnis mulai mengumpulkan data.



Pedang Bermata Dua dari Big Data



Peningkatan volume data yang terkumpul menjanjikan peluang bisnis baru - mulai dari wawasan pelanggan yang lebih baik hingga produk digital yang benar-benar baru.



Analisis dari pekerjaan perhiasan pada pengujian setiap hipotesis telah berubah menjadi pencarian pola stabil dalam kumpulan data besar yang menggambarkan orang dan fenomena dunia. Pendekatan ini memungkinkan untuk melihat hal-hal yang sebelumnya tidak tersedia, untuk memodelkan dan mengoptimalkan berbagai proses, dari periklanan hingga penawaran produk, untuk mempersonalisasi pengalaman pelanggan di berbagai bidang dan meningkatkannya untuk menyenangkan klien dan bisnis. Lompatan ini, menurut pendapat saya, dapat dibandingkan dengan transisi dari inventaris buku abad pertengahan ke sistem katalog kartu yang koheren, di mana setiap objek diberi ruang rak dan labelnya sendiri.



Namun, bekerja dengan data besar belum menjadi obat mujarab untuk segalanya, dan ada beberapa alasan untuk ini.



  • , , , . , – , , , .
  • , . , , , , , .
  • , , . , – , .
  • – , , – , -.


Terlepas dari keterbatasan ini, semakin banyak perusahaan menemukan sumber daya dan peluang untuk menggunakan layanan mereka sendiri untuk mempersonalisasi pengalaman pelanggan dan meningkatkan keuntungan mereka. Dari sumber pengetahuan, data berubah menjadi sumber monetisasi, terkadang cukup agresif. Dalam beberapa kasus, bahkan ada kemungkinan efek samping untuk klien dan bisnis: dari informasi yang berlebihan hingga apa yang disebut gelembung konten. Dan sebelum kita membicarakannya, mari kita cari tahu - apa yang tersembunyi di balik rekomendasi?



Di Balik Terpal Rekomendasi Pribadi



Sebagian besar model yang menawarkan konten, produk, atau layanan termasuk dalam salah satu dari lima konsep sederhana.



  1. . , – , , , .
  2. . , / , , .
  3. . , , Β« – Β» . , – , .
  4. . , – , . , – , . – , . , , 70- – .
  5. – , .


Rekomendasi Masalah dan Lingkungan Isi Muat Ulang



Semua model ini bekerja dengan cukup baik (bahkan heuristik!), Tetapi masih dapat menyebabkan situasi yang tidak menyenangkan:



  • Oversaturasi. Banyak model serupa yang dilatih pada data yang tidak lengkap (bagaimanapun, setiap perusahaan hanya memiliki sedikit pengetahuan) menyerang Anda dengan proposal yang sama. Katakanlah Anda seorang pecinta kopi. Maka, pagi ini Anda ditawari cappucino wangi yang enak di kafe terdekat. Proposal itu memicu antusiasme dan kesenangan Anda dalam menyerap crema. Tapi kemudian dorongan lain datang mengetuk dengan sedikit kopi, spanduk lain - dan sekarang ada lima belas di antaranya. Berapa cangkir kopi yang bisa Anda minum dalam sehari?
  • – , , / , . , – .
  • – -, .
  • – , , 9 , . , , .
  • – , , , - . , .


Situasi seperti itu sangat tidak diinginkan tidak hanya untuk klien, tetapi juga untuk bisnis, karena mereka dapat secara signifikan mengurangi keinginan untuk terus berinteraksi dengan layanan yang diiklankan, atau menggunakan produk atau aplikasi tertentu.



Sebagian besar dari mereka dapat diperbaiki dalam sistem rekomendasi, misalnya, waktu yang tidak relevan atau rekomendasi yang mengganggu dihilangkan dengan kebijakan dan jadwal komunikasi yang dikembangkan dengan baik.



Bahkan gelembung konten bisa menjadi kurang monoton jika Anda menambahkan algoritme bersaing ke sistem rekomendasi yang akan menampilkan proposal alternatif, atau elemen tambahan keacakan yang akan menawarkan Anda sesuatu yang benar-benar baru dan, jika tertarik, memperluas batasan rekomendasi (lihat Gambar 1).





Angka: 1 Model yang bersaing dengan penambahan acak.



Meskipun demikian, kita sendiri harus menyembuhkan beberapa konsekuensi dari rekomendasi yang tidak sempurna. Metode apa yang dapat membantu Anda memperjuangkan lingkungan konten yang menyenangkan?



Bagaimana Meningkatkan Lingkungan Konten Anda



Untuk menemukan jalan Anda ke konten Anda yang relevan dan relevan, cobalah untuk bermain dengan algoritma di sekitar Anda dan cari tahu apa yang paling mereka tanggapi. Tetapi sebelum itu, saya mengusulkan untuk mengadopsi beberapa aturan higienis data science sederhana yang akan menyelamatkan Anda dari rekomendasi yang paling mengganggu.



  • – , , , . – , – , email.
  • – , .
  • – Β« Β», , - .
  • Berhati-hatilah saat membayar pembelian - yang terbaik adalah memiliki instrumen pembayaran terpisah untuk semua anggota keluarga, dan terkadang untuk tujuan terpisah.
  • Matikan wifi secara berkala di tempat-tempat yang banyak jaringan publiknya.


Jika tidak, gunakan pencarian aktif lebih sering dan coba sesuatu yang baru. Sebagian besar model rekomendasi yang baik tidak hanya menggunakan data retro (data tentang aktivitas Anda dalam jangka waktu lama), tetapi juga data tentang tindakan saat ini, sehingga memberikan prioritas yang lebih tinggi. Setelah bermain-main dengan sedikit permintaan baru, Anda bisa mendapatkan porsi konten yang sesuai dengan suasana hati Anda saat ini.



Dan jika ini tampaknya belum cukup, bergabunglah dengan barisan kecil ilmuwan data untuk membuat sistem rekomendasi yang sangat ideal dan pelajari semua seluk-beluknya dari dalam. Pembelajaran mesin sangat diperlukan tanpa pikiran manusia yang ingin tahu!

Pada topik ini:







  1. www.history.ox.ac.uk/british-medieval-library-catalogues
  2. Fred Lerner, β€œThe story of libraries, from invention of writing to the computer age”, continuum, 2006
  3. en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
  4. en.wikipedia.org/wiki/Dewey_Decimal_Classification
  5. Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
  6. boxesandarrows.com/forgotten-forefather-paul-otlet
  7. www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
  8. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. β€” 1998.
  9. googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html



All Articles