Menangkap harga. Panduan Praktis untuk Pengadaan Laut





Mari kita mulai dengan cara yang paling sederhana - mari kita coba memancing dengan tangan kita. Kami membuka database barang dari pembelian dan mulai mencari produk serupa. Kemungkinan besar kita tidak akan menangkap apa pun pada malam hari.



Mari kita mencoba untuk menyaring dasar barang dari pembelian. Setiap item dalam pembelian diberi kode OKPD2. All-Russian Classifier of Products by Economic Activity adalah kode yang berisi informasi tentang suatu produk.



Sebagai contoh:







Sekarang kami memiliki pancing, sudah menjadi sedikit lebih baik, tetapi karena alasan tertentu ikan tidak mau tergantung di kail.



Jangan kesal, kita gunakan umpannya. Kami perlu menemukan cara untuk secara otomatis mengidentifikasi produk serupa dalam satu OKPD2. Untuk melakukan ini, Anda perlu menyajikan arti semantik dari deskripsi produk dalam bentuk tensor. Untuk memproses informasi, Anda perlu mengubahnya menjadi format angka. Untuk melakukan ini, kita akan menggunakan mekanisme khusus untuk menerjemahkan kata-kata ke dalam ruang vektor Word2Vec, yang menerjemahkan kata menjadi urutan angka dengan ukuran tertentu, yang disebut vektor atau tensor. Word2Vec adalah model yang dilatih khusus untuk memahami arti semantik sebuah kata. Produk dari database dengan OKPD2 yang sama harus dikonversi ke tensor. Bagus, sekarang kami memiliki salah satu produk tensor dan sekumpulan tensor produk lainnya.



Kita akan mencari produk terdekat dengan jarak cosinus, semakin mirip produk dari database dengan milik kita, semakin kecil jarak cosinusnya. Kami memilih produk dengan jarak cosinus minimum dan ini akan menjadi ikan yang kami inginkan.



Mari kita menganalisis metode yang dijelaskan dalam praktik. Mari kita mulai dengan mengubah deskripsi produk menjadi tensor. Pertama, deskripsi produk adalah tokenized, yaitu dipecah menjadi kata-kata terpisah. Untuk mengubah kata menjadi makna semantiknya, Word2Vec terlatih dengan dimensi 100 digunakan (yaitu, sebuah kata diwakili oleh kumpulan 100 angka).



Kami mendapat serangkaian embeddings. Untuk menghitung jarak cosinus, perlu menghitung representasi vektor dari seluruh teks yang berisi deskripsi produk. Cara termudah untuk menerapkannya adalah dengan mengambil rata-rata di antara semua embeddings kata-kata deskripsi, sementara makna semantik produk akan terdistorsi, tetapi ini tidak penting untuk menyelesaikan masalah ini.







Setelah kami menerjemahkan produk kami dan semua produk dengan OKPD yang sama ke dalam embeddings, langkah selanjutnya adalah menghitung jarak cosinus di antara keduanya.







Seperti yang Anda lihat pada diagram di bawah, hal yang paling dekat dengan produk "Ikan Besar" adalah produk "Ikan Besar Salmon" dan "Ikan Emas".







Dengan demikian, dapat diasumsikan bahwa harga ikan mas besar berada pada kisaran antara harga ikan mas dan salmon besar. Hasil berikut diperoleh pada data nyata:







Terkadang pendekatan ini mungkin tidak berhasil dengan baik. Misalnya, di database produk tidak akan ada produk yang serupa dengan kami. Kemudian ikan yang ditangkap akan terlalu kecil, dan modul akan mengembalikan jarak yang kosong.







Metode terakhir yang akan kita lihat adalah memancing dengan jaring. Yandex akan digunakan sebagai jaringan. Permintaan dibentuk dari deskripsi produk, dan 20 tanggapan pertama dipilih untuk analisis lebih lanjut. Tidak masuk akal untuk mengambil jawaban berikut, karena relevansinya dipertanyakan. Teks dari 20 tanggapan pertama dikirim ke pencari harga. Model memilih harga dari tanggapan dan membentuk kisaran harga dari mereka. Banyak ikan yang berbeda masuk ke dalam jaring ikan, sehingga kisaran harganya sangat bising. Untuk pemfilteran, mari kita hilangkan pencilan. Jika harga yang didapat terdistribusi normal, maka hanya 68 persen harga yang bisa ditahan. Artinya, biarkan harga berada pada kisaran antara perbedaan antara rata-rata semua harga dan deviasi standar, dan jumlah mean dan deviasi standar. Beginilah tampilan kisaran harga produk di Yandex:



Semua metode penangkapan ikan yang dipertimbangkan memiliki pro dan kontra. Pilihan opsi mana yang lebih disukai dibuat oleh masing-masing nelayan sesuai dengan persyaratan ketepatan dan waktu. Selamat menangkap!



All Articles