Lokakarya penelitian. Asisten Suara - Apa yang Salah dengan Mereka?

pengantar



Analis yang meneliti layanan chatbot dan asisten virtual menjanjikan pertumbuhan pasar setidaknya 30% per tahun. Secara absolut, pada 2019, pasar bernilai lebih dari $ 2 miliar per tahun. Hampir semua perusahaan IT terkemuka dunia telah merilis asisten suara virtual, dan Apple, Google, dan Amazon telah melakukan sebagian besar promosi mereka.



gambar



Pasar Rusia juga memiliki pemimpinnya sendiri di bidang ini. Yandex menjadi pemain besar pertama yang meluncurkan asisten suaranya sendiri di Rusia. Menurut data resmi perusahaan yang diterbitkan, Alice digunakan oleh 45 juta pengguna setiap bulan, dan jumlah permintaan bulanan ke asisten lebih dari 1 miliar.Menurut para ahli, 2020 bisa menjadi titik balik untuk pasar asisten suara - persaingan antara platform dan merek akan mengarah pada peningkatan pengakuan asisten. ...



Secara umum, tidak ada keraguan bahwa pasar asisten suara adalah ceruk yang menarik. Dan ide pertama yang terlintas dalam pikiran adalah menggunakan layanan ASR (Pengenalan Ucapan Otomatis) dan TTS (Text To Speech) yang tersedia, menautkannya ke konstruktor bot yang memiliki dukungan NLU (Pemahaman Bahasa Alami), dan hanya itu! Selain itu, semua ini dapat diimplementasikan dengan cukup mudah dan cepat di platform cloud seperti Twilio dan VoxImplant.



Satu-satunya masalah adalah bahwa hasilnya akan sangat biasa-biasa saja. Apa alasannya ini? Pertama-tama, mari kita coba memahami mengapa sekumpulan teknologi yang cukup bagus, jika digabungkan, memberikan hasil yang biasa-biasa saja. Ini penting karena Dalam kehidupan nyata, klien akan selalu mengutamakan layanan yang layanan suaranya lebih nyaman, menarik, lebih pintar dan lebih cepat dari yang lain.



Cara kerja asisten suara pada umumnya



Pertama-tama, kami mencatat bahwa ucapan kami adalah urutan suara. Suara, pada gilirannya, adalah superposisi getaran suara (gelombang) dari frekuensi yang berbeda. Gelombang, seperti yang kita ketahui dari fisika, dicirikan oleh dua atribut - amplitudo dan frekuensi. Algoritme kerja



gambar

Speech signal



Assistant:



  1. , , – . , «», .. .



    , , , - . ( ), «» . , , — , — . , , . , , , , .



    , , , , . , ASR .



    , – . , .



    , .
  2. Hasil pekerjaan asisten suara, yang diperoleh pada tahap pertama, dikirim ke bot, dengan dukungan NLU untuk mengidentifikasi maksud, entitas, mengisi slot, dan membentuk teks respons.



    Hasilnya, pada output kita mendapatkan presentasi tes dari frase respon, yang merupakan reaksi asisten suara kita terhadap permintaan yang diterima.
  3. Jawaban dari asisten suara dikirim ke layanan sintesis ucapan, yang kemudian disuarakan kepada orang tersebut.


Masalah yang muncul



Terlepas dari kebenaran yang tampak jelas dari pendekatan yang diterapkan, dalam kasus asisten suara, itu membawa banyak masalah. Inilah yang utama:



  1. Penundaan
  2. Penundaan




  3. . , , 500 , .



    , 1 . - « » : «!» « ?». , , , , -, .



    , :



    • . – « »: , , .
    • .
    • .
    • .


    !

  4. . , .. . . , , , .. .
  5. . , . , , – .
  6. – . . , .



    :



    — ?

    — . , ? ?



    – « » : « » « ». « » , « » « ».
  7. -. .



    :



    — ---… ---…

    — , , … --…

    — , , --… , …



    , .. , , . .. , .
  8. , TTS-.


?



Pertama, saat menerapkan asisten suara, penting untuk memastikan bahwa lawan bicara "didengarkan", termasuk. pada saat-saat ketika asisten virtual sendiri menyuarakan pesan keluar. Pilihan untuk mendengarkan atau menanggapi adalah implementasi yang sangat buruk dan harus dihindari dalam kehidupan nyata.



Kedua, Anda harus mengoptimalkan kecepatan semua komponen sistem. Namun, pada titik tertentu kami pasti akan menemui batasan kemungkinan pengurangan latensi dan komplikasi skenario pemrosesan bahasa alami. Oleh karena itu, pemahaman yang datang kepada kami bahwa perlu untuk secara fundamental mengubah pendekatan terhadap implementasi layanan suara.



Ide utama di balik pendekatan baru ini adalah mengambil contoh dari proses yang diterapkan oleh otak manusia. Pernahkah Anda memperhatikan bahwa seseorang, selama percakapan, mulai menganalisis pesan yang dikatakan lawan bicara, bukan pada saat itu benar-benar selesai, tetapi segera, di awal bunyinya, mengklarifikasi dengan setiap kata baru? Untuk alasan ini, kita sering siap memberikan jawaban bahkan sebelum lawan bicara menyelesaikan pesannya.



Jika kita kembali ke algoritme yang harus diterapkan oleh asisten virtual suara, mungkin akan terlihat seperti ini (sebagai ilustrasi, pertimbangkan pertanyaan yang masuk: "Di mana ATM terdekat?"):



  1. ASR , . .



    :



    a) «»

    b) «»

    c) «»

    d) «»
  2. , ,



    :



    a) «»

    b) « »

    c) « »

    d) « »
  3. , NLU, .



    :



    a) : «». :

    b) : « ». : « » 50%, « » 50%

    c) : « ». : « » 50%, « » 50%, « » = « »

    d) : « ». : « » 100%, « » = « »



    gambar



  4. , 1 , , , , :



    • ;
    • ;
    • , .. 3.


    , , ( – = 0%).



    , . , , , , , .
  5. Segera setelah terungkap bahwa pengguna telah menyelesaikan pesannya (ditentukan oleh penundaan dalam aliran input), kami membuang respons yang sesuai dengan maksud yang paling mungkin terdeteksi ke dalam buffer keluaran. Lebih baik lagi, untuk mengoptimalkan kecepatan, simpan di buffer keluaran bukan representasi tekstual dari respons, tetapi segera fragmen audio yang diterima dari TTS, dengan demikian mengakumulasi versi lengkap dari pesan audio respons.
  6. Kami mengumumkan konten buffer keluaran kepada pengguna.


Cara untuk meningkatkan kualitas pekerjaan asisten



Mari kita lihat metode apa yang tersedia untuk lebih meningkatkan kualitas asisten virtual suara kita:







  1. . , . , (/ , ..) .
  2. «»



    «» , , . , «» .



    , «» , , .




  3. , , . .. , , , . , , , . , ..




  4. , -. .



    , , « ». – , . , , .




  5. , . , .. .




  6. , , . , , , . , .



    . online.


-



Sejauh ini, kami hanya mempertimbangkan fitur teknis dari penerapan asisten suara virtual. Namun harus kita pahami bahwa sukses tidak selalu hanya bergantung pada kesempurnaan implementasi teknis. Mari kita analisis contoh yang sudah dipertimbangkan: "Di mana ATM terdekat?" dan memahami keunikan penerapannya di antarmuka suara.



Anda tahu, ada aturan yang berlaku untuk manajer penjualan - "Apa yang tidak dapat dijual melalui telepon tidak boleh dijual melalui telepon." Untuk alasan ini, jawaban formulir "ATM terdekat terletak di ..." tidak informatif bagi seseorang. Jika dia tahu betul daerah di mana dia sekarang, mis. Jika dia mengetahui nama semua jalan dan nomor rumah terdekat, kemungkinan besar dia akan tahu di mana ATM terdekat. Jadi jawaban seperti itu kemungkinan besar akan segera menyebabkan pembentukan pertanyaan lain: "Kalau begitu, di mana alamat baru saja dinamai?" Jawaban yang jauh lebih informatif adalah pilihan: "ATM terdekat terletak sekitar seratus meter dari Anda ke arah tenggara", atau bahkan lebih baik, juga mengirim pesan kepada seseorang seperti lokasi di Yandex atau peta Google.



Aturan umum di sini adalah bahwa jika penggunaan informasi lebih lanjut memerlukan terjemahannya ke saluran persepsi lain, maka opsi ini merupakan pilihan yang tidak menguntungkan untuk implementasi langsung dalam kerangka antarmuka suara. Diperlukan untuk merumuskan kembali jawaban ke dalam bentuk yang nyaman untuk didengarkan.



Untuk sejumlah layanan, penerapannya dalam kerangka asisten suara umumnya merupakan solusi yang paling berhasil. Misalnya, jika seseorang berada dalam situasi stres, maka biasanya sulit baginya untuk berkonsentrasi dan dengan cepat mendeskripsikan masalahnya dalam teks dalam obrolan, dan dia akan selalu lebih suka mengungkapkan segala sesuatu dengan suara. Ini bisa menjadi kriteria penting saat memilih kasus bisnis untuk diterapkan dalam asisten suara virtual.



Pilihan kasus kedua yang jelas untuk diterapkan dengan "suara" adalah kebutuhan untuk menggunakannya dalam situasi di mana ada batasan hukum mengenai masalah ini (misalnya, saat mengendarai mobil, dilarang melakukan korespondensi teks), atau tidak nyaman untuk menggunakan saluran komunikasi lain (misalnya, selama bekerja atau berolahraga ketika tangan seseorang sibuk).



Tidak ada batasan untuk kesempurnaan



Suara lebih nyaman daripada antarmuka lainnya saat pengguna membutuhkan fungsi yang sangat spesifik untuk menyelesaikan tugas yang sangat spesifik. Mengapa demikian? Ini sangat sederhana - dalam situasi seperti itu, kebutuhan untuk menunggu situs dimuat, menggulir halaman, mencari melalui menu aplikasi, menekan tombol, dll. selalu lebih merepotkan daripada perintah suara yang diucapkan dengan cepat. Situs web dan aplikasi multifungsi. Dan ini adalah keuntungan dan kerugian mereka pada saat bersamaan. Keterampilan bersuara harus disesuaikan dengan fungsinya "di sini dan sekarang".



Penting untuk diingat bahwa Anda harus menghindari situasi di mana perintah suara harus disertai dengan tindakan tambahan di antarmuka lain. Jika tidak, itu membuat saluran suara tidak beroperasi. prinsip bebas mata dilanggar, karena perlu membaca, dan bebas genggam, jika Anda masih perlu menjepit sesuatu.



Rekomendasi penting lainnya adalah Anda tidak boleh mencoba mengajar seseorang untuk berbicara. Dia bisa melakukannya dengan sempurna tanpa kita, karena bahasa adalah antarmuka yang sudah dikenal dan dimengerti. Contoh ilustrasi gaya buruk: "Untuk mendengarkan pesan ini lagi, ucapkan: Dengarkan lagi." Anda dan saya tidak berbicara seperti itu dalam kehidupan biasa. Bukan begitu? Lebih baik bertanya, "Apakah Anda akan mendengarkan pesan itu lagi atau pergi ke pesan berikutnya?"



Merupakan praktik yang baik untuk menerapkan asisten virtual yang diaktifkan oleh suara untuk menghindari pertanyaan terbuka sama sekali. Dianjurkan untuk mengarahkan lawan bicara ke tindakan tertentu. Ini sangat berharga jika asisten bertindak sebagai navigator atau sistem rekomendasi. Seorang asisten suara seharusnya tidak memerlukan terlalu banyak informasi rinci dari seseorang. Lihat saat percakapan berlangsung.



Dan terakhir, saya ingin mencatat bahwa personalisasi mungkin merupakan hal utama yang kurang dari antarmuka dialog suara yang ada. Tanpa ini, mustahil untuk melakukan dialog yang kurang lebih panjang. Asisten harus mengumpulkan data tentang lawan bicara, menyusun dan memverifikasi informasi yang diterima. Penting untuk tidak kehilangan alur dialog, untuk melestarikan dan mempertimbangkan konteks percakapan. Itu penting. Jika tidak, asisten hanya dapat mengimplementasikan kueri singkat dan agak sederhana, dan akibatnya, ini tidak akan memungkinkan Anda untuk masuk ke dalam dialog yang benar-benar langsung saat asisten suara berkomunikasi dengan pengguna.



All Articles