⛅️ 👩🏽‍🚀 👋🏿 Bagaimana kita sekali lagi mencoba menggantikan manusia dengan robot 🍾 ✒️ 📏

Kisah ini tentang bagaimana kami meluncurkan sebuah startup untuk ke-4 kalinya.

Bagaimana ide itu muncul

Semuanya berawal dari postingan yang saya lihat tentang platform Maxine baru dengan AI untuk mengupgrade komunikasi video dari Nvidia, salah satu fitur dari platform ini adalah terjemahan simultan dalam bentuk judul, fitur ini diimplementasikan menggunakan framework dari Nvidia yang sama bernama JarvisKerangka kerja ini dirancang untuk layanan percakapan AI multimodal, memberikan kinerja GPU waktu nyata. Konsep interpretasi simultan inilah yang menjadi dasar platform komunikasi audio dan video kami. Karena ini adalah platform baru, seharusnya memiliki sejumlah fitur dibandingkan dengan platform serupa lainnya, jadi kami memutuskan untuk menambahkan suara ke judul ini, membentuk profil suara pengguna dan mensintesis ucapan, dengan mempertimbangkan nada suara dan warna suara orang yang berbicara.

Pidato ke teks atau pengenalan ucapan

Apakah lebih baik menggunakan Google, Yandex atau Mozilla?

Google, dibandingkan dengan Yandex, memiliki akurasi pengenalan yang lebih baik, kami menjalankan 5 pesan suara tes: 3 dalam bahasa Inggris dan 2 dalam bahasa Rusia melalui Google API dan akurasi pengenalannya adalah 100% (5/5), Yandex 60% (3/5). Google mendukung 125 bahasa, Yandex - 3 bahasa.

Keunggulan Mozilla Deepspeech adalah akurasi pengenalan, karena 92,5%, sebagai perbandingan, seseorang mengenali dengan akurasi 94,2%, oleh karena itu akurasi pengenalan pesan suara tes adalah 100% (5/5), dan keunggulannya adalah mesin ini open source, tidak seperti Google dan Yandex. Kerugian dari mesin ini adalah jumlah bahasa yang dikenali - Inggris, Rusia, dan Prancis.

Akibatnya, pilihan jatuh pada Google Speech to Text karena rasio jumlah bahasa dengan akurasi pengenalan.

Terjemahan teks

Untuk mengatasi masalah ini, hal pertama yang terlintas dalam pikiran adalah menggunakan API yang sudah jadi dari Google atau Yandex. Masalah pertama yang kami temui adalah ketidakakuratan terjemahan. Misalnya, terjemahan kalimat "Orang-orang di China tampaknya tidak terlihat" dari bahasa Rusia ke bahasa Inggris. Yandex Translator: “Orang-orang di China tampaknya tidak terlihat” dan Google Translator: “Ada banyak orang di China”, dalam hal ini Google melakukannya dengan lebih baik.

Saat ini tidak ada obat mujarab untuk mengatasi masalah ini. Tugas utama penerjemah saat ini adalah mengajarkan algoritme untuk memahami arti dari sebuah kalimat / teks. Jika algoritme memahami artinya, terjemahan akan memiliki kualitas yang jauh lebih baik.

Terjemahan sejumlah kalimat yang terkait dengan topik bisnis melalui Google Translate dan Yandex Translator menunjukkan bahwa Google melakukannya dengan lebih kompeten, jadi kami akan menggunakan Google Translate.

Analisis dan dapatkan profil suara

Untuk mendapatkan profil suara, kita perlu mengumpulkan beberapa dataset. Karena tugasnya adalah menyintesis teks yang diterjemahkan oleh pidato pembicara, kita perlu mengumpulkan kumpulan data dari setiap pengguna. Ini dilakukan dengan membaca teks khusus yang berisi kumpulan kombinasi huruf, konstruksi sintaksis, dan tanda baca yang diperlukan. Durasi pembacaan teks sekitar 15 menit, sehingga diperoleh informasi yang cukup banyak tentang frekuensi dan karakteristik intonasi dari setiap pengguna. Pembacaan teks dapat diulangi untuk meningkatkan hasil akhir.

Sintesis ucapan dengan mempertimbangkan profil suara

Mensintesis pidato seseorang dalam bahasa yang belum pernah dia ucapkan bukanlah tugas yang mudah. Untuk melakukan ini, perlu untuk mengumpulkan kumpulan data utama dengan bantuan orang dwibahasa yang juga akan membaca teks khusus, kemudian membaca teks serupa dalam bahasa lain, dan kemudian teks tambahan untuk memperluas kumpulan data. Berdasarkan pelatihan ini dan hubungan yang diidentifikasi, ucapan pengguna dalam bahasa lain selanjutnya akan dihasilkan. Selain itu, solusi otomatis yang sudah ada untuk mensintesis ucapan dalam berbagai bahasa akan membantu dalam proses ini, karena pengumpulan kumpulan data yang sepenuhnya independen dari skala yang diperlukan tampaknya tidak efektif atau realistis.

Keluaran

Tugas utama kami saat ini adalah menggabungkan profil suara dengan sintesis ucapan, karena mentransfer profil suara ke bahasa lain bukanlah tugas yang mudah dan Anda perlu melatih jaringan saraf agar dapat memahami cara melakukannya, hanya memiliki dua kumpulan data dalam bahasa yang berbeda ...

Selama pengembangan proyek, kami akan membuat publikasi terkait dengan tugas yang lebih spesifik dan cara untuk menyelesaikannya.

Bagaimana kita sekali lagi mencoba menggantikan manusia dengan robot