🐔 🍼 🧓🏻 15 dataset terbaik untuk pelatihan chatbot 🚢 🧛🏽 🏫

Untuk menyelesaikan masalah pengguna dengan cepat tanpa campur tangan manusia, chatbot yang efektif memerlukan data pelatihan dalam jumlah besar. Namun, hambatan utama dalam pengembangan chatbot adalah mendapatkan data percakapan berorientasi tugas yang realistis untuk melatih sistem ini menggunakan teknik pembelajaran mesin. Khusus untuk permulaan utas baru kursus Machine Learning, saya membagikan kepada Anda daftar kumpulan data percakapan terbaik dari obrolan, dipecah menjadi pertanyaan dan jawaban, data dukungan pelanggan, data interaktif, dan data multibahasa.

Untuk menyelesaikan masalah pengguna dengan cepat tanpa campur tangan manusia, chatbot yang efektif memerlukan data pelatihan dalam jumlah besar. Namun, hambatan utama dalam pengembangan chatbot adalah mendapatkan data percakapan berorientasi tugas yang realistis untuk melatih sistem ini menggunakan teknik pembelajaran mesin. Kami telah menyusun daftar kumpulan data percakapan terbaik dari obrolan, dipecah menjadi T&J, data layanan pelanggan. data interaktif dan multibahasa.

Dataset T&J untuk melatih chatbots

Tautan . Korpus ini mencakup artikel Wikipedia, pertanyaan faktual yang dibuat dengan tangan, dan jawaban yang dibuat dengan tangan untuk pertanyaan tersebut untuk digunakan dalam penelitian ilmiah.

Korpus WikiQA . Kumpulan pertanyaan dan pasangan kalimat yang tersedia untuk umum dikumpulkan dan diberi anotasi untuk mengeksplorasi jawaban atas pertanyaan domain terbuka. Untuk mencerminkan kebutuhan sebenarnya akan informasi dari pengguna biasa, mereka menggunakan log kueri Bing sebagai sumber pertanyaan. Setiap pertanyaan ditautkan ke halaman Wikipedia yang berpotensi memiliki jawaban.

Data Bahasa Yahoo . Halaman ini menyajikan set data QC pilihan dari Yahoo Answers dari Yahoo.

Koleksi QA TREC (Text REtrieval Collection): TREC telah menjawab pertanyaan sejak 1999. Dalam setiap urutan pertanyaan dan jawaban, masalah didefinisikan sedemikian rupa sehingga sistem menerima potongan kecil teks yang berisi jawaban pertanyaan domain terbuka dengan kemungkinan jawaban hanya "ya" atau "tidak".

Set Data Dukungan Ubuntu

Ubuntu Conversation Corpus terdiri dari hampir satu juta percakapan antara dua orang yang diambil dari log obrolan Ubuntu yang digunakan untuk mendapatkan dukungan teknis pada berbagai masalah terkait Ubuntu. Set berisi 930.000 dialog dan lebih dari 100.000.000 kata.

Kit Strategi Hubungan Layanan Pelanggan : Kumpulkan data layanan pelanggan terkait perjalanan dari empat sumber. Catatan percakapan dari tiga layanan pelanggan komersial IVA dan forum Maskapai Penerbangan di TripAdvisor.com selama Agustus 2016.

Dukungan pelanggan Twitter . Kumpulan data di Kaggle ini mencakup lebih dari 3.000.000 tweet dan balasan dari merek-merek terbesar di Twitter.

Dataset dialog pelatihan Chatbot

Log Obrolan IRC Grup Minat Web Semantik . Log obrolan IRC yang dibuat secara otomatis ini tersedia di RDF yang dipertahankan setiap hari sejak 2004, termasuk stempel waktu dan alias.

Cornell Corps of Film Dialogues . Korpus ini berisi banyak koleksi metadata yang kaya akan dialog fiksi dari skrip film: terdapat 220.579 dialog antara 10.292 pasang pahlawan film dengan 9.035 karakter dari 617 film.

Set Data KonvAI2 . Kumpulan data ini berisi lebih dari 2.000 percakapan untuk kontes PersonaChat , di mana orang-orang yang bekerja di platform crowdsourcing Yandex.Toloka mengobrol dengan bot dari tim yang berpartisipasi.

Santa Barbara. Corpus Bahasa Inggris Amerika Lisan: Dataset ini mencakup sekitar 249.000 kata dalam transkripsi, audio, dan stempel waktu pada level unit intonasi individu.

Korpus obrolan NPS . Korpus ini terdiri dari 10.567 pesan dari sekitar 500.000 pesan yang dikumpulkan dalam berbagai obrolan online sesuai dengan ketentuan layanan.

Dialog berorientasi tujuan di Maluuba . Kumpulan data percakapan yang percakapannya difokuskan untuk menyelesaikan tugas atau membuat keputusan, seperti mencari penerbangan dan hotel. Berisi informasi lengkap yang mencakup lebih dari 250 hotel, penerbangan, dan tujuan.

Wizard of Oz Multidomain Dataset (MultiWOZ)... Kumpulan percakapan tertulis dengan tag lengkap yang mencakup beberapa domain dan topik. Set berisi 10.000 dialog dan setidaknya urutan besarnya lebih dari semua korpora beranotasi sebelumnya, yang difokuskan pada pemecahan masalah.

Set data untuk melatih bot multibahasa

NUS Corpus . Korpus ini dibuat untuk menormalkan teks dari jejaring sosial dan menerjemahkannya. Itu dibangun dengan memilih secara acak 2.000 pesan dari korpus SMS Inggris NUS dan kemudian diterjemahkan ke dalam bahasa Cina formal.

Dataset EXCITEMENT . Tersedia dalam bahasa Inggris dan Italia, kit ini berisi testimoni pelanggan negatif di mana pelanggan menunjukkan alasan ketidakpuasan terhadap perusahaan.

Masih tidak dapat menemukan data yang Anda cari? Lionbridge AI menyediakan data khusus untuk melatih chatbot menggunakan pembelajaran mesin dalam 300 bahasa untuk membuat percakapan Anda lebih interaktif dan mendukung pelanggan di seluruh dunia. Dan jika Anda ingin meningkatkan diri Anda dalam pembelajaran mesin - ikuti kursus lanjutan kami .by ML dan jangan lupa kode promo HABR yang menambahkan 10% diskon di banner.

Lebih banyak kursus

15 dataset terbaik untuk pelatihan chatbot

Dataset T&J untuk melatih chatbots

Set Data Dukungan Ubuntu

Dataset dialog pelatihan Chatbot

Set data untuk melatih bot multibahasa

Artikel yang direkomendasikan

More articles: